Saya sedang membaca artikel ini di Nature di mana beberapa fallacy dijelaskan dalam konteks analisis data. Saya perhatikan bahwa kesalahan penembak jitu Texas sangat sulit untuk dihindari:
Perangkap kognitif yang menunggu selama analisis data diilustrasikan oleh dongeng penembak jitu Texas: penembak jitu tidak kompeten yang menembakkan pola acak peluru di sisi gudang, menarik target sekitar gumpalan lubang peluru terbesar, dan menunjuk dengan bangga pada kesuksesannya.
Bullseye-nya jelas menggelikan - tetapi kekeliruan itu tidak begitu jelas bagi para penjudi yang percaya pada 'tangan panas' ketika mereka memiliki rentetan kemenangan, atau kepada orang-orang yang melihat signifikansi supernatural ketika undian lotere muncul karena semua angka ganjil.
Juga tidak selalu jelas bagi para peneliti. “Anda hanya mendapat dorongan dari data dan kemudian berpikir, yah, ini jalan untuk turun,” kata Pashler. “Anda tidak menyadari bahwa Anda memiliki 27 pilihan berbeda dan Anda memilih satu yang memberi Anda hasil yang paling menyenangkan atau menarik, dan sekarang Anda terlibat dalam sesuatu yang sama sekali bukan representasi data yang tidak bias. ”
Saya pikir jenis pekerjaan eksplorasi itu biasa dan sering, hipotesis dibangun berdasarkan bagian analisis itu. Ada seluruh pendekatan ( EDA ) yang didedikasikan untuk proses ini:
Analisis data eksplorasi dipromosikan oleh John Tukey untuk mendorong ahli statistik untuk mengeksplorasi data, dan mungkin merumuskan hipotesis yang dapat menyebabkan pengumpulan data baru dan eksperimen
Sepertinya setiap proses eksplorasi yang dilakukan tanpa memiliki hipotesis sebelumnya cenderung menghasilkan hipotesis palsu.
Perhatikan bahwa deskripsi EDA di atas sebenarnya berbicara tentang new data collection and experiments
. Saya mengerti bahwa setelah data baru dikumpulkan, maka analisis data konfirmasi (CDA) sesuai. Namun, saya tidak berpikir perbedaan ini dibuat sangat jelas, dan meskipun pemisahan EDA dan CDA akan ideal, pasti ada beberapa keadaan di mana ini tidak layak. Saya akan mengatakan lebih jauh bahwa mengikuti pemisahan ini sangat jarang dan sebagian besar praktisi tidak berlangganan paradigma EDA sama sekali.
Jadi pertanyaan saya adalah: Apakah EDA (atau proses informal dari penjelajahan data) membuatnya lebih mungkin jatuh pada fallacy shooter Texas?