Kekeliruan penembak jitu Texas dalam analisis data eksplorasi

23

Saya sedang membaca artikel ini di Nature di mana beberapa fallacy dijelaskan dalam konteks analisis data. Saya perhatikan bahwa kesalahan penembak jitu Texas sangat sulit untuk dihindari:

Perangkap kognitif yang menunggu selama analisis data diilustrasikan oleh dongeng penembak jitu Texas: penembak jitu tidak kompeten yang menembakkan pola acak peluru di sisi gudang, menarik target sekitar gumpalan lubang peluru terbesar, dan menunjuk dengan bangga pada kesuksesannya.

Bullseye-nya jelas menggelikan - tetapi kekeliruan itu tidak begitu jelas bagi para penjudi yang percaya pada 'tangan panas' ketika mereka memiliki rentetan kemenangan, atau kepada orang-orang yang melihat signifikansi supernatural ketika undian lotere muncul karena semua angka ganjil.

Juga tidak selalu jelas bagi para peneliti. “Anda hanya mendapat dorongan dari data dan kemudian berpikir, yah, ini jalan untuk turun,” kata Pashler. “Anda tidak menyadari bahwa Anda memiliki 27 pilihan berbeda dan Anda memilih satu yang memberi Anda hasil yang paling menyenangkan atau menarik, dan sekarang Anda terlibat dalam sesuatu yang sama sekali bukan representasi data yang tidak bias. ”

Saya pikir jenis pekerjaan eksplorasi itu biasa dan sering, hipotesis dibangun berdasarkan bagian analisis itu. Ada seluruh pendekatan ( EDA ) yang didedikasikan untuk proses ini:

Analisis data eksplorasi dipromosikan oleh John Tukey untuk mendorong ahli statistik untuk mengeksplorasi data, dan mungkin merumuskan hipotesis yang dapat menyebabkan pengumpulan data baru dan eksperimen

Sepertinya setiap proses eksplorasi yang dilakukan tanpa memiliki hipotesis sebelumnya cenderung menghasilkan hipotesis palsu.

Perhatikan bahwa deskripsi EDA di atas sebenarnya berbicara tentang new data collection and experiments. Saya mengerti bahwa setelah data baru dikumpulkan, maka analisis data konfirmasi (CDA) sesuai. Namun, saya tidak berpikir perbedaan ini dibuat sangat jelas, dan meskipun pemisahan EDA dan CDA akan ideal, pasti ada beberapa keadaan di mana ini tidak layak. Saya akan mengatakan lebih jauh bahwa mengikuti pemisahan ini sangat jarang dan sebagian besar praktisi tidak berlangganan paradigma EDA sama sekali.

Jadi pertanyaan saya adalah: Apakah EDA (atau proses informal dari penjelajahan data) membuatnya lebih mungkin jatuh pada fallacy shooter Texas?

eda fallacy

— Robert Smith
sumber

3

Saya tidak tahu persis apa yang Anda maksud dengan "hipotesis palsu". Semangat analisis data eksplorasi adalah untuk melihat data dan terbuka untuk berbagai pola, termasuk pola yang tidak Anda harapkan. Tidak kurang, dan tidak lebih. Tidak ada dalam analisis data eksplorasi yang menjamin ide-ide bagus dan tidak ada yang mengesampingkan atau memungkinkan Anda membuang pemikiran kritis atau menghubungkan apa yang Anda lakukan dengan sains yang mendasarinya (pengertian luas). Jadi, ada beberapa risiko di sini untuk mengkritik EDA untuk hal-hal yang tidak pernah dialami oleh orang lain. atau tidak ada yang mendukung.

— Nick Cox

3

Apa yang paling sulit untuk dipelajari dan diajarkan di EDA adalah tepatnya apa yang seharusnya membantu tes signifikansi (dalam akun yang paling optimis): untuk membiasakan diri untuk tidak menafsirkan rincian dalam data yang tidak cukup penting untuk diperhatikan. . Saya berpendapat bahwa banyak akun EDA tidak mendorong cukup keras gagasan bahwa suatu pola harus ditanggapi dengan serius harus diidentifikasi dalam kumpulan data yang berbeda, tetapi pengabaian itu biasa terjadi di seluruh ilmu statistik.

— Nick Cox

1

Terima kasih. Masalahnya adalah menghasilkan banyak hipotesis dan mengujinya dalam dataset yang sama benar-benar berbahaya karena Anda cenderung mengonfirmasi satu di antaranya walaupun itu salah. Seperti yang dijelaskan oleh Creosote, diperlukan koreksi pada nilai-p. Sayangnya, saya belum pernah melihat ini dilakukan dalam praktek.

— Robert Smith

2

Dari belajar EDA (Prancis) pada awal 1980-an, saya mendapat kesan bahwa sebenarnya lebih mudah untuk menekuk analisis Anda ke arah kesimpulan yang diinginkan daripada dengan struktur statistik yang lebih kuat ...

— Xi'an

12

Jika seseorang memandang peran EDA secara ketat sebagai penghasil hipotesis, maka tidak ada kesalahan penembak jitu yang tidak berlaku. Namun, sangat penting bahwa uji konfirmasi berikutnya memang independen. Banyak peneliti berusaha untuk "mendamaikan perbedaan" dengan hal-hal seperti analisis gabungan, analisis meta, dan metode Bayesian. Ini berarti bahwa setidaknya beberapa bukti yang disajikan dalam analisis tersebut termasuk "lingkaran di sekitar lubang peluru acak".

— AdamO
sumber

5

Persis. Masalah dengan begitu banyak analisis data eksplorasi adalah set yang sama digunakan untuk kedua pelatihan (mengidentifikasi di mana peluru mendarat) dan menguji (menggambar lingkaran di sekitar mereka).

— Michael K

11

Ini melukiskan pandangan yang sangat negatif dari analisis data eksplorasi. Meskipun argumennya tidak salah, itu benar-benar mengatakan "apa yang bisa salah ketika saya menggunakan alat yang sangat penting dengan cara yang salah?"

Menerima nilai p yang tidak disesuaikan dari metode EDA akan menyebabkan tingkat kesalahan tipe I yang sangat meningkat. Tapi saya pikir Tukey tidak akan senang dengan siapa pun yang melakukan ini. Maksud dari EDA bukanlah untuk membuat kesimpulan yang pasti tentang hubungan dalam data, tetapi lebih untuk mencari hubungan baru yang potensial dalam data untuk ditindaklanjuti.

Meninggalkan langkah ini dalam proses ilmiah yang lebih besar pada dasarnya adalah melumpuhkan ilmu pengetahuan untuk tidak pernah dapat menemukan aspek baru yang menarik dari data kami, di luar deduksi logis murni. Pernah mencoba untuk menyimpulkan secara logis bagaimana ekspresi berlebihan dari set gen akan mempengaruhi kelangsungan hidup sel? Petunjuk: itu tidak mudah (salah satu lelucon favorit kami di antara staf bioinformatika di tempat kerja saya adalah ketika seorang fisikawan bertanya, "Mengapa Anda tidak mensimulasikan sifat fisik dari interaksi gen yang berbeda? Ini ruang parameter terbatas.")

Secara pribadi, saya pikir kebingungan tentang hal ini dapat menyebabkan lambatnya kemajuan ilmiah. Saya tahu terlalu banyak peneliti non-statistik yang akan menyatakan bahwa mereka tidak ingin melakukan prosedur EDA pada data awal , karena mereka "tahu bahwa EDA bisa buruk".

Kesimpulannya, benar-benar benar bahwa menggunakan metode EDA dan memperlakukannya sebagai metode analisis data konfirmasi akan menghasilkan hasil yang tidak valid. Namun, kurangnya penggunaan EDA yang tepat dapat menyebabkan hampir tidak ada hasil.

— Cliff AB
sumber

Terima kasih. Saya tidak akan terlalu khawatir tentang memiliki sedikit orang yang terlibat dalam semacam analisis eksplorasi. Saya pikir yang terjadi adalah sebaliknya; banyak orang melakukan pekerjaan eksplorasi itu tetapi mungkin tanpa mengambil tindakan pencegahan yang memadai untuk mencegah kesalahan tipe I seperti yang Anda gambarkan. Namun, menarik bahwa Anda mengenal orang-orang yang memiliki pendapat negatif tentang EDA. Jika mereka tidak ingin melakukannya dalam data awal, lalu kapan mereka merasa nyaman melakukan pekerjaan EDA (atau mirip EDA)?

— Robert Smith

Pengalaman saya adalah bahwa para peneliti non-statistik terbiasa mendengar "beberapa perbandingan bermasalah" dan ketika mereka mendatangi saya dengan data, mereka ingin mengatakan bahwa mereka ingin menghindari membuat beberapa perbandingan, bahkan dengan data awal. Tentu saja, pemahaman yang lebih lengkap tentang masalah ini adalah Anda ingin menghindari beberapa perbandingan dalam studi CDA.

— Cliff AB

Saya mengerti. Itu lebih masuk akal.

— Robert Smith

5

Sepertinya proses eksplorasi yang dilakukan tanpa memiliki hipotesis sebelumnya cenderung menghasilkan hipotesis palsu.

Saya akan marah pernyataan ini dan mengungkapkannya sedikit berbeda: Memilih hipotesis untuk diuji berdasarkan data merusak tes jika seseorang tidak menggunakan hipotesis nol yang benar. Dorongan artikel Nature, pada dasarnya, adalah bahwa mudah bagi analis untuk menipu diri mereka sendiri untuk mengabaikan semua perbandingan ganda yang secara implisit mereka buat selama eksplorasi.

Nature mengutip Andrew Gelman, tetapi tidak menyebut makalahnya dengan Eric Loken tentang topik ini. Kutipan:

Ketika kritik dari beberapa perbandingan muncul sehubungan dengan beberapa makalah yang kami diskusikan di sini, para peneliti tidak pernah menjawab bahwa mereka telah memilih semua detail dari pemrosesan data dan analisis data sebelumnya; sebaliknya, mereka mengklaim bahwa mereka hanya mengambil satu analisis untuk data tertentu yang mereka lihat . Intuitif seperti pertahanan ini mungkin tampak, itu tidak membahas keprihatinan fundamental berulang dari beberapa perbandingan.

Lain:

Bukannya para peneliti melakukan ratusan perbandingan yang berbeda dan memilih yang signifikan secara statistik. Sebaliknya, mereka mulai dengan gagasan yang agak terbentuk dalam pikiran mereka tentang perbandingan apa yang harus dilakukan, dan mereka memperbaiki gagasan itu berdasarkan data. Mereka melihat pola merah dan merah muda, dan mereka menggabungkan warna.

Singkatnya:

Ada pemetaan satu-ke-banyak dari hipotesis ilmiah ke statistik.

Dan satu lagi, tekankan:

Dalam semua kasus yang telah kita bahas, analisis yang diterbitkan memiliki cerita yang konsisten dengan hipotesis ilmiah yang memotivasi pekerjaan, tetapi pola data lainnya (yang, mengingat ukuran sampel, dapat dengan mudah terjadi secara kebetulan) secara alami akan mengarah pada analisis data yang berbeda (misalnya, fokus pada efek utama daripada interaksi, atau pilihan subset data yang berbeda untuk dibandingkan) yang sama-sama dapat digunakan untuk mendukung hipotesis penelitian. Hasilnya tetap, seperti yang telah kami tulis di tempat lain, semacam mesin untuk memproduksi dan mempublikasikan pola acak.

Singkatnya, bukan karena EDA mengarah pada "hipotesis palsu"; itu menguji hipotesis dengan dataset yang sama yang mendorong hipotesis dapat menyebabkan kesimpulan palsu.

Jika Anda tertarik untuk menaklukkan rintangan ini, Gelman memiliki makalah lain yang berpendapat bahwa banyak dari masalah ini hilang dalam kerangka Bayesian, dan kertas dengan Loken referensi "replikasi pra-publikasi" seperti yang dijelaskan secara anekdot di bagian pertama makalah ini .

— Sean Easter
sumber

Terima kasih. Sangat menarik. Saya akan melihat makalah Gelman tentang beberapa perbandingan.

— Robert Smith

3

Hampir secara definisi, ya, tentu saja EDA tanpa CDA menarik penembak jitu Texas.

$p$ $p$

— Kreosot
sumber

Terima kasih. Ya, diperlukan koreksi. Saya tidak menganggap ini sebagai pertimbangan umum.

— Robert Smith

3

Hanya untuk menambah jawaban yang sudah bagus: Ada jalan tengah antara CDA lengkap dan hanya menerima hasil EDA Anda pada nilai nominal. Setelah Anda menemukan fitur yang mungkin menarik (atau hipotesis), Anda bisa merasakan kekokohannya dengan melakukan simulasi validasi silang (CV) atau bootstrap. Jika temuan Anda hanya bergantung pada beberapa pengamatan utama, maka CV atau Bootstrap akan menunjukkan bahwa banyak lipatan (CV) atau sampel boostrap gagal mereproduksi fitur yang diamati.

Ini bukan metode yang sangat mudah, tetapi ini merupakan pemeriksaan perantara yang baik sebelum menggunakan CDA lengkap (atau dengan sengaja mengulurkan "set validasi" dari kumpulan data awal Anda).

0

Kriteria yang paling ketat untuk pemilihan model data adalah sejauh mana mendekati Kompleksitas Kolmogorov dari data - yaitu untuk mengatakan sejauh mana data tanpa kompres memampatkan data. Secara teori, ini bisa dihasilkan dari analisis data eksplorasi saja.

Lihat " Dekonvolusi kausal oleh model generatif algoritmik "

— James Bowery
sumber