Masalah dengan ekspedisi memancing adalah ini: jika Anda menguji hipotesis yang cukup, salah satunya akan dikonfirmasi dengan nilai p rendah. Biarkan saya memberi contoh nyata.
Bayangkan Anda melakukan penelitian epidemiologis. Anda telah menemukan 1000 pasien yang menderita kondisi langka. Anda ingin tahu kesamaan apa yang mereka miliki. Jadi, Anda mulai menguji - Anda ingin melihat apakah suatu karakteristik tertentu terwakili secara berlebihan dalam sampel ini. Awalnya Anda menguji jenis kelamin, ras, riwayat keluarga terkait tertentu (ayah meninggal karena penyakit jantung sebelum usia 50, ...) tetapi akhirnya, ketika Anda mengalami kesulitan menemukan apa pun yang "melekat", Anda mulai menambahkan semua jenis faktor lain yang hanya mungkin berhubungan dengan penyakit:
- adalah vegetarian
- telah melakukan perjalanan ke Kanada
- selesai kuliah
- sudah menikah
- punya anak
- memiliki kucing
- punya anjing
- minum setidaknya 5 gelas anggur merah per minggu
...
Sekarang ini masalahnya. Jika saya memilih hipotesis "acak" yang cukup, mulai menjadi kemungkinan bahwa setidaknya satu dari ini akan menghasilkan nilai p kurang dari 0,05 - karena esensi dari nilai p adalah "kemungkinan salah untuk menolak hipotesis nol ketika ada tidak ada efek ". Secara berbeda - rata-rata, untuk setiap 20 hipotesis palsu yang Anda uji, salah satunya akan memberi Anda p <0,05 .
Ini sangat baik dirangkum dalam kartun XKCD http://xkcd.com/882/ :
Tragisnya adalah bahwa bahkan jika seorang penulis individu tidak melakukan 20 tes hipotesis berbeda pada sampel untuk mencari signifikansi, mungkin ada 19 penulis lain melakukan hal yang sama; dan orang yang "menemukan" korelasi sekarang memiliki makalah yang menarik untuk ditulis, dan orang yang kemungkinan akan diterima untuk publikasi ...
Ini mengarah pada kecenderungan yang tidak menguntungkan untuk temuan yang tidak dapat diproduksi kembali. Cara terbaik untuk mencegah hal ini sebagai penulis individu adalah dengan menetapkan standar lebih tinggi. Alih-alih menguji faktor individual, tanyakan pada diri Anda "jika saya menguji hipotesis N, berapa probabilitas untuk mendapatkan setidaknya satu false positive". Ketika Anda benar-benar menguji "hipotesis memancing", Anda bisa berpikir untuk membuat koreksi Bonferroni untuk mencegah hal ini - tetapi orang sering tidak.
Ada beberapa makalah yang menarik oleh Dr. Ioannides - diprofilkan dalam Atlantic Monthly khusus tentang hal ini.
Lihat juga pertanyaan sebelumnya dengan beberapa jawaban mendalam.
perbarui untuk merespons semua aspek pertanyaan Anda dengan lebih baik:
Jika Anda takut menjadi "penangkap ikan", tetapi Anda benar-benar tidak tahu hipotesis apa yang harus dirumuskan, Anda pasti dapat membagi data dalam bagian "eksplorasi", "replikasi", dan "konfirmasi". Pada prinsipnya ini harus membatasi eksposur Anda pada risiko yang diuraikan sebelumnya: jika Anda memiliki nilai p 0,05 dalam data eksplorasi dan Anda mendapatkan nilai yang sama dalam data replikasi dan konfirmasi, risiko Anda jatuh salah. Contoh yang bagus dari "melakukannya dengan benar" ditunjukkan dalam British Medical Journal (publikasi yang sangat dihormati dengan Faktor Dampak 17+)
Eksplorasi dan konfirmasi faktor yang terkait dengan kehamilan tanpa komplikasi pada wanita nulipara: studi kohort prospektif, Chappell et al
Inilah paragraf yang relevan:
Kami membagi dataset dari 5.288 wanita menjadi tiga bagian: dataset eksplorasi dua pertiga wanita dari Australia dan Selandia Baru, dipilih secara acak (n = 2129); dataset replikasi lokal dari sepertiga wanita tersisa dari Australia dan Selandia Baru (n = 1067); dan set data konfirmasi eksternal yang berbeda secara geografis dari 2432 wanita Eropa dari Inggris dan Republik Irlandia.
Kembali sedikit dalam literatur, ada makalah yang bagus oleh Altman et al berjudul "Prognosis dan penelitian prognostik: memvalidasi model prognostik" yang masuk jauh lebih dalam, dan menyarankan cara untuk memastikan Anda tidak jatuh ke dalam kesalahan ini. "Poin utama" dari artikel:
Model yang tidak divalidasi tidak boleh digunakan dalam praktik klinis. Ketika memvalidasi model prognostik, kalibrasi dan diskriminasi harus dievaluasi. Validasi harus dilakukan pada data yang berbeda dari yang digunakan untuk mengembangkan model, lebih disukai dari pasien di pusat-pusat lain. Model mungkin tidak berkinerja baik dalam praktik. karena kekurangan dalam metode pengembangan atau karena sampel baru terlalu berbeda dari aslinya
Perhatikan secara khusus saran bahwa validasi dilakukan (saya parafrase) dengan data dari sumber lain - yaitu tidak cukup untuk membagi data Anda secara sewenang-wenang menjadi subset, tetapi Anda harus melakukan apa yang Anda bisa untuk membuktikan bahwa "belajar" pada set dari satu set eksperimen dapat diterapkan ke data dari serangkaian eksperimen yang berbeda. Itu bar yang lebih tinggi, tetapi lebih lanjut mengurangi risiko bahwa bias sistematis dalam pengaturan Anda menciptakan "hasil" yang tidak dapat diverifikasi secara independen.
Ini topik yang sangat penting - terima kasih telah mengajukan pertanyaan!