RINGKASAN EKSEKUTIF: jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.
Andrew Gelman suka menulis tentang topik ini dan telah mempostingnya secara luas akhir-akhir ini di blog-nya. Saya tidak selalu setuju dengan dia tapi saya suka perspektifnya tentang -hacking. Berikut adalah kutipan dari makalah Pengantar untuk Garden of Forking Paths (Gelman & Loken 2013; versi yang muncul di American Scientist 2014; lihat juga komentar singkat Gelman tentang pernyataan ASA), beri tekanan pada saya:p
Masalah ini kadang-kadang disebut "p-hacking" atau "derajat kebebasan peneliti" (Simmons, Nelson, dan Simonsohn, 2011). Dalam sebuah artikel baru-baru ini, kami berbicara tentang "ekspedisi memancing [...]". Tetapi kita mulai merasa bahwa istilah "memancing" sangat disayangkan, karena istilah itu membangkitkan citra seorang peneliti yang mencoba perbandingan setelah perbandingan, melemparkan garis ke danau berulang kali sampai ikan tersangkut. Kami tidak memiliki alasan untuk berpikir bahwa para peneliti secara teratur melakukan itu. Kami pikir kisah sebenarnya adalah bahwa para peneliti dapat melakukan analisis yang masuk akal mengingat asumsi dan data mereka, tetapi jika data ternyata berbeda, mereka bisa melakukan analisis lain yang sama masuk akal dalam keadaan itu.
Kami menyesalkan penyebaran istilah "memancing" dan "peretasan" (dan bahkan "derajat kebebasan peneliti") karena dua alasan: pertama, karena ketika istilah tersebut digunakan untuk menggambarkan penelitian, ada implikasi menyesatkan yang peneliti secara sadar mencoba banyak analisis berbeda pada satu set data tunggal; dan, kedua, karena hal itu dapat mengarahkan para peneliti yang tahu bahwa mereka tidak mencoba banyak analisis yang berbeda untuk berpikir secara keliru bahwa mereka tidak begitu kuat tunduk pada masalah tingkat kebebasan peneliti. [...]
Poin utama kami di sini adalah bahwa dimungkinkan untuk memiliki beberapa perbandingan potensial, dalam arti analisis data yang detailnya sangat bergantung pada data, tanpa peneliti melakukan prosedur sadar memancing atau memeriksa beberapa nilai-p. .
Jadi: Gelman tidak suka istilah p-hacking karena itu menyiratkan bahwa para peneliti itu aktif curang. Sedangkan masalah dapat terjadi hanya karena peneliti memilih tes apa yang akan dilakukan / dilaporkan setelah melihat data, yaitu setelah melakukan beberapa analisis eksplorasi.
Dengan beberapa pengalaman bekerja di bidang biologi, saya dapat dengan aman mengatakan bahwa semua orang melakukan itu. Semua orang (termasuk saya) mengumpulkan beberapa data dengan hanya hipotesis a priori yang samar, melakukan analisis penjajakan yang luas, menjalankan berbagai uji signifikansi, mengumpulkan beberapa data lebih banyak, menjalankan dan menjalankan kembali pengujian, dan akhirnya melaporkan beberapa nilai dalam naskah akhir. Semua ini terjadi tanpa melakukan kecurangan secara aktif, melakukan pemungutan ceri gaya xkcd-jelly-bean yang bodoh , atau secara sadar meretas apa pun.p
Jadi jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.
Satu-satunya pengecualian yang muncul dalam pikiran adalah studi replikasi pra-terdaftar penuh dalam psikologi atau uji medis pra-terdaftar penuh.
Bukti spesifik
Yang mengherankan, beberapa orang menyurvei peneliti untuk menemukan bahwa banyak yang mengakui melakukan semacam peretasan ( John et al. 2012, Mengukur Prevalensi Praktik Penelitian yang Dapat Dipertanyakan Dengan Insentif untuk Memberitahu Kebenaran ):
Terlepas dari itu, semua orang mendengar tentang apa yang disebut "krisis replikasi" dalam psikologi: lebih dari setengah studi terbaru yang diterbitkan dalam jurnal psikologi top tidak mereplikasi ( Nosek et al. 2015, Memperkirakan reproduksibilitas ilmu psikologi ). (Studi ini baru-baru ini dilakukan di seluruh blog lagi, karena terbitan Science edisi Maret 2016 menerbitkan komentar yang berusaha menyangkal Nosek dkk. Dan juga balasan oleh Nosek dkk. Diskusi berlanjut di tempat lain, lihat posting oleh Andrew Gelman dan RetractionWatch post yang dia tautkan . Singkatnya, kritiknya tidak meyakinkan.)
Pembaruan Nov 2018: Kaplan dan Irvin, 2017, Kemungkinan Efek Null dari Uji Klinis NHLBI Besar Meningkat dari waktu ke waktu menunjukkan bahwa fraksi uji klinis yang melaporkan hasil nol meningkat dari 43% menjadi 92% setelah pra-pendaftaran menjadi diperlukan:
P distribusi -nilai dalam literatur
Head et al. 2015
Saya belum pernah mendengar tentang Head et al. belajar sebelumnya, tetapi sekarang telah meluangkan waktu melihat-lihat literatur sekitarnya. Saya juga telah melihat sekilas data mentah mereka .
Head et al. mengunduh semua makalah Akses Terbuka dari PubMed dan mengekstraksi semua nilai p yang dilaporkan dalam teks, mendapatkan 2,7 juta nilai p. Dari ini, 1,1 juta dilaporkan sebagai dan bukan sebagai . Dari semua ini, Head et al. secara acak mengambil satu nilai p per kertas tetapi ini tampaknya tidak mengubah distribusi, jadi di sini adalah bagaimana distribusi semua nilai 1,1 juta terlihat seperti (antara dan ):p=ap<a00.06
Saya menggunakan lebar bin, dan orang dapat dengan jelas melihat banyak pembulatan yang dapat diprediksi di nilai- dilaporkan . Sekarang, Head et al. lakukan hal berikut: mereka membandingkan jumlah nilai dalam interval dan dalam interval ; angka sebelumnya ternyata (secara signifikan) lebih besar dan mereka menganggapnya sebagai bukti -hacking. Jika seseorang menyipit, seseorang dapat melihatnya pada sosok saya.0.0001pp(0.045,0.5)(0.04,0.045)p
Saya menemukan ini sangat tidak meyakinkan karena satu alasan sederhana. Siapa yang ingin melaporkan temuan mereka dengan ? Sebenarnya, banyak orang tampaknya melakukan hal itu, tetapi tetap saja wajar untuk mencoba menghindari nilai garis batas yang tidak memuaskan ini dan lebih baik melaporkan angka signifikan lainnya, misalnya (kecuali tentu saja itu ). Jadi beberapa kelebihan -nilai dekat tetapi tidak sama dengan dapat dijelaskan oleh preferensi pembulatan peneliti.p=0.05p=0.048p=0.052p0.05
Dan terlepas dari itu, efeknya kecil .
(Satu-satunya efek kuat yang dapat saya lihat pada gambar ini adalah penurunan yang nyata dari kerapatan value setelah . Ini jelas disebabkan oleh bias publikasi.)p0.05
Kecuali saya melewatkan sesuatu, Head et al. bahkan tidak membahas penjelasan alternatif yang potensial ini. Mereka juga tidak menyajikan histogram dari nilai- .p
Ada banyak makalah yang mengkritik Head et al. Dalam naskah yang tidak dipublikasikan ini, Hartgerink berpendapat bahwa Head et al. seharusnya menyertakan dan dalam perbandingan mereka (dan jika mereka punya, mereka tidak akan menemukan efeknya). Saya tidak yakin tentang hal itu; kedengarannya tidak terlalu meyakinkan. Akan jauh lebih baik jika kita bisa memeriksa distribusi nilai "mentah" tanpa pembulatan.p=0.04p=0.05p
Distribusi nilai- tanpa pembulatanp
Dalam makalah PeerJ 2016 ini (pracetak diposting pada tahun 2015) yang sama Hartgerink et al. mengekstrak nilai-p dari banyak makalah di jurnal psikologi top dan melakukan hal itu: mereka menghitung ulang nilai- tepat dari nilai statistik -, -, - dll. distribusi ini bebas dari artefak pembulatan dan tidak menunjukkan peningkatan apa pun terhadap 0,05 apa pun (Gambar 4):ptFχ2
Pendekatan yang sangat mirip diambil oleh Krawczyk 2015 di PLoS One, yang mengekstrak nilai 135k dari jurnal psikologi eksperimental teratas. Berikut adalah bagaimana distribusi mencari nilai- dilaporkan (kiri) dan yang dihitung ulang (kanan) :pp
Perbedaannya mencolok. Histogram kiri menunjukkan beberapa hal aneh yang terjadi di sekitar , tetapi di sebelah kanan hilang. Ini berarti bahwa hal-hal aneh ini disebabkan oleh preferensi orang untuk melaporkan nilai sekitar dan bukan karena -hacking.p=0.05p≈0.05p
Mascicampo dan Lalande
Tampaknya yang pertama mengamati dugaan kelebihan nilai- tepat di bawah 0,05 adalah Masicampo & Lalande 2012 , melihat tiga jurnal teratas dalam psikologi:p
Ini memang terlihat mengesankan, tetapi Lakens 2015 ( pracetak ) dalam Komentar yang diterbitkan berpendapat bahwa ini hanya tampak mengesankan berkat kesesuaian eksponensial yang menyesatkan. Lihat juga Lakens 2015, Tentang tantangan menggambar kesimpulan dari nilai-p tepat di bawah 0,05 dan referensi di dalamnya.
Ekonomi
Brodeur et al. 2016 (tautan menuju pracetak 2013) melakukan hal yang sama untuk literatur ekonomi. Lihat tiga jurnal ekonomi, ekstrak 50k hasil tes, konversi semuanya menjadi skor (menggunakan koefisien yang dilaporkan dan kesalahan standar bila memungkinkan dan menggunakan nilai jika hanya dilaporkan), dan dapatkan yang berikut:zp
Ini agak membingungkan karena nilai- kecil ada di sebelah kanan dan nilai- besar ada di sebelah kiri. Seperti yang ditulis penulis dalam abstrak, "Distribusi nilai-p menunjukkan bentuk unta dengan nilai-p yang melimpah di atas 0,25" dan "lembah antara 0,25 dan 0,10". Mereka berpendapat bahwa lembah ini adalah tanda sesuatu yang mencurigakan, tetapi ini hanya bukti tidak langsung. Juga, itu mungkin hanya karena pelaporan selektif, ketika nilai-p besar di atas 0,25 dilaporkan sebagai beberapa bukti dari kurangnya efek tetapi nilai-p antara 0,1 dan 0,25 dirasakan tidak ada di sini atau di sana dan cenderung dihilangkan. (Saya tidak yakin apakah efek ini ada dalam literatur biologis atau tidak karena plot di atas fokus pada interval .)ppp<0.05
Salah meyakinkan?
Berdasarkan semua hal di atas, kesimpulan saya adalah bahwa saya tidak melihat bukti kuat -hacking dalam distribusi nilai- di literatur biologis / psikologis secara keseluruhan. Ada banyak bukti pelaporan selektif, bias publikasi, pembulatan nilai turun menjadi dan efek pembulatan lucu lainnya, tapi saya tidak setuju dengan kesimpulan Head et al .: tidak ada tonjolan yang mencurigakan di bawah .ppp0,05 0,050.050.05
Uri Simonsohn berpendapat bahwa ini "meyakinkan secara keliru" . Sebenarnya, ia mengutip makalah-makalah ini secara tidak kritis tetapi kemudian menyatakan bahwa "sebagian besar nilai-p jauh lebih kecil" dari 0,05. Lalu dia berkata: "Itu meyakinkan, tapi meyakinkan meyakinkan". Dan inilah alasannya:
Jika kita ingin tahu apakah para peneliti meng-hack hasil mereka, kita perlu memeriksa nilai-p yang terkait dengan hasil mereka, mereka yang mungkin ingin mereka p-retas sebelumnya. Sampel, agar tidak bias, hanya harus mencakup pengamatan dari populasi yang menarik.
Sebagian besar nilai-p yang dilaporkan di sebagian besar makalah tidak relevan untuk perilaku strategis yang menarik. Kovarian, pemeriksaan manipulasi, efek utama dalam studi yang menguji interaksi, dll. Termasuk mereka, kami meremehkan peretasan dan kami melebih-lebihkan nilai bukti data. Menganalisis semua nilai-p menanyakan pertanyaan yang berbeda, yang kurang masuk akal. Alih-alih "Apakah peneliti meng-hack apa yang mereka pelajari?" Kami bertanya, "Apakah peneliti meng-hack segalanya?"
Ini masuk akal. Melihat semua nilai- dilaporkan terlalu berisik. Makalah -curve Uri ( Simonsohn et al. 2013 ) dengan baik menunjukkan apa yang dapat dilihat jika seseorang melihat nilai dipilih dengan cermat . Mereka memilih 20 makalah psikologi berdasarkan beberapa kata kunci yang mencurigakan (yaitu, penulis makalah ini melaporkan tes mengendalikan kovariat dan tidak melaporkan apa yang terjadi tanpa mengendalikannya) dan kemudian hanya mengambil nilai- yang menguji temuan utama. Berikut adalah bagaimana distribusi terlihat (kiri):ppp ppp
Kemiringan kiri yang kuat menunjukkan -hacking yang kuat .p
Kesimpulan
Saya akan mengatakan bahwa kita tahu bahwa harus ada banyak -hacking terjadi, sebagian besar jenis Forking-Paths yang dijelaskan Gelman; mungkin sampai-sampai nilai diterbitkan tidak dapat benar-benar dianggap sebagai nilai nominal dan harus "diabaikan" oleh pembaca oleh sebagian kecil. Namun, sikap ini tampaknya menghasilkan efek yang jauh lebih halus daripada sekadar benjolan dalam distribusi nilai - keseluruhan hanya di bawah dan tidak dapat benar-benar terdeteksi oleh analisis tumpul seperti itu.ppp 0,05 p0.05