Saya akan memfokuskan jawaban ini pada pertanyaan spesifik tentang apa saja alternatif untuk nilai- .p
Ada 21 makalah diskusi yang diterbitkan bersama dengan pernyataan ASA (sebagai Bahan Tambahan): oleh Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark, dan Steve Ziliak (beberapa dari mereka menulis bersama ; Saya daftar semua untuk pencarian di masa depan). Orang-orang ini mungkin membahas semua pendapat yang ada tentang nilai- dan inferensi statistik.p
Saya telah memeriksa semua 21 makalah.
Sayangnya, sebagian besar dari mereka tidak membahas alternatif nyata apa pun, meskipun mayoritas tentang keterbatasan, kesalahpahaman, dan berbagai masalah lainnya dengan nilai- (untuk pertahanan nilai- , lihat Benjamini, Mayo, dan Senn). Ini sudah menunjukkan bahwa alternatif, jika ada, tidak mudah ditemukan dan / atau dipertahankan.ppp
Jadi mari kita lihat daftar "pendekatan lain" yang diberikan dalam pernyataan ASA itu sendiri (seperti dikutip dalam pertanyaan Anda):
[Pendekatan lain] termasuk metode yang menekankan pada estimasi pengujian, seperti kepercayaan, kredibilitas, atau interval prediksi; Metode Bayesian; ukuran alternatif bukti, seperti rasio kemungkinan atau Bayes Factors; dan pendekatan lain seperti pemodelan teoritik keputusan dan tingkat penemuan palsu.
Interval kepercayaan diri
Interval kepercayaan adalah alat yang sering berjalan seiring dengan nilai- ; melaporkan interval kepercayaan (atau yang setara, misalnya, mean standard error dari mean) bersama dengan -value hampir selalu merupakan ide yang baik.± pp±p
Beberapa orang (tidak termasuk dalam ASA yang berselisih) menyarankan bahwa interval kepercayaan harus menggantikan nilai- . Salah satu pendukung paling vokal dari pendekatan ini adalah Geoff Cumming yang menyebutnya statistik baru (nama yang menurut saya mengerikan). Lihat misalnya posting blog ini oleh Ulrich Schimmack untuk kritik terperinci: Tinjauan Kritis Cumming's (2014) Statistik Baru: Reselling Statistik Lama sebagai Statistik Baru . Lihat juga Kami tidak mampu mempelajari ukuran efek di posting blog lab oleh Uri Simonsohn untuk poin terkait.p
Lihat juga utas ini (dan jawaban saya di dalamnya) tentang saran serupa oleh Norm Matloff di mana saya berpendapat bahwa ketika melaporkan CI seseorang masih ingin memiliki nilai dilaporkan juga: Apa yang merupakan contoh yang baik dan meyakinkan di mana p-nilai berguna?p
Namun, beberapa orang lain (tidak termasuk di antara yang berselisih ASA) berpendapat bahwa interval kepercayaan, sebagai alat yang sering dilakukan, sesat seperti nilai- dan juga harus dibuang. Lihat, misalnya, Morey et al. 2015, Kekeliruan Menempatkan Keyakinan dalam Interval Kepercayaan yang ditautkan oleh @Tim di komentar ini. Ini adalah perdebatan yang sangat lama.p
Metode Bayesian
(Saya tidak suka bagaimana pernyataan ASA merumuskan daftar. Interval kredibel dan faktor Bayes didaftar secara terpisah dari "metode Bayesian", tetapi mereka jelas alat Bayesian. Jadi saya menghitungnya bersama-sama di sini.)
Ada literatur besar dan sangat keras tentang perdebatan Bayesian vs. frequentist. Lihat, misalnya, utas baru-baru ini untuk beberapa pemikiran: Kapan (jika pernah) pendekatan yang sering secara substantif lebih baik daripada orang Bayes? Analisis Bayesian masuk akal jika seseorang memiliki prioror informatif yang baik, dan semua orang akan dengan senang hati menghitung dan melaporkan atau sebagai gantinya darip ( H 0 : θ = 0 | data ) p ( data setidaknya sama ekstrim | H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)—Tapi sayangnya, orang biasanya tidak memiliki prior yang baik. Eksperimen mencatat 20 tikus melakukan sesuatu dalam satu kondisi dan 20 tikus melakukan hal yang sama dalam kondisi lain; prediksi adalah bahwa kinerja tikus yang terdahulu akan melebihi kinerja tikus yang terakhir, tetapi tidak ada yang mau atau memang bisa menyatakan dengan jelas sebelum perbedaan kinerja. (Tapi lihat jawaban @ FrankHarrell di mana ia mengadvokasi menggunakan "priorors skeptis".)
Bayesian Die-hard menyarankan untuk menggunakan metode Bayes bahkan jika seseorang tidak memiliki prior informatif. Salah satu contoh baru-baru ini adalah Krushke, 2012, estimasi Bayes menggantikan uji-t , dengan rendah hati disingkat sebagai BEST. Idenya adalah untuk menggunakan model Bayesian dengan prior uninformative lemah untuk menghitung posterior untuk efek yang menarik (seperti, misalnya, perbedaan kelompok). Perbedaan praktis dengan penalaran yang sering nampaknya biasanya kecil, dan sejauh yang saya bisa lihat pendekatan ini tetap tidak populer. Lihat Apa yang dimaksud dengan "pemberitahuan sebelumnya"? Bisakah kita punya satu yang benar-benar tanpa informasi? untuk diskusi tentang apa yang "tidak informatif" (jawaban: tidak ada hal seperti itu, maka kontroversi).
Pendekatan alternatif, kembali ke Harold Jeffreys, didasarkan pada pengujian Bayesian (yang bertentangan dengan estimasi Bayesian ) dan menggunakan faktor Bayes. Salah satu pendukung yang lebih fasih dan produktif adalah Eric-Jan Wagenmakers, yang telah banyak menerbitkan topik ini dalam beberapa tahun terakhir. Dua fitur pendekatan ini patut ditekankan di sini. Pertama, lihat Wetzels et al., 2012, Tes Hipotesis Bayesian Default untuk Desain ANOVA untuk ilustrasi seberapa kuat hasil tes Bayesian dapat bergantung pada pilihan spesifik dari hipotesis alternatif pH1dan distribusi parameter ("prior") yang ada. Kedua, setelah "masuk akal" sebelumnya dipilih (Wagenmakers mengiklankan apa yang disebut priors "default" Jeffreys), sehingga faktor Bayes sering berubah menjadi cukup konsisten dengan nilai- standar , lihat misalnya angka ini dari pracetak ini oleh Marsman & Pembuat Wagen :p
Jadi sementara Wagenmakers et al. tetap bersikeras bahwa nilai- sangat cacat dan faktor Bayes adalah cara untuk pergi, orang tidak bisa tidak bertanya-tanya ... (Agar adil, titik Wetzels et al. 2011 adalah bahwa untuk nilai- dekat dengan faktor Bayes saja menunjukkan bukti yang sangat lemah terhadap nol, tetapi perhatikan bahwa ini dapat dengan mudah ditangani dalam paradigma frequentist hanya dengan menggunakan lebih ketat , sesuatu yang banyak orang menganjurkan pula.) p 0,05 αpp0.05α
Salah satu makalah yang lebih populer oleh Wagenmakers et al. dalam membela faktor Bayes adalah 2011, Mengapa psikolog harus mengubah cara mereka menganalisis data mereka: Kasus psi di mana ia berpendapat bahwa makalah Bem yang terkenal tentang memprediksi masa depan tidak akan mencapai kesimpulan salah mereka jika saja mereka menggunakan faktor Bayes sebagai gantinya. nilai- . Lihat posting blog yang dipikirkan oleh Ulrich Schimmack ini untuk argumen balasan yang terperinci (dan IMHO meyakinkan): Mengapa Para Psikolog Tidak Harus Mengubah Cara Mereka Menganalisa Data Mereka: Iblis ada di dalam Default Default .p
Lihat juga The Default Bayesian Test adalah Prasangka Terhadap Efek Kecil dari posting blog oleh Uri Simonsohn.
Untuk kelengkapan, saya menyebutkan bahwa Wagenmakers 2007, Sebuah solusi praktis untuk masalah meresap -valuesp disarankan untuk menggunakan BIC sebagai sebuah pendekatan untuk faktor Bayes untuk menggantikan -values. BIC tidak tergantung pada sebelumnya dan karenanya, meskipun namanya, tidak benar-benar Bayesian; Saya tidak yakin apa yang harus dipikirkan tentang proposal ini. Tampaknya baru-baru ini pembuat Wagen lebih menyukai tes Bayesian dengan prior Jeffreys yang tidak informatif, lihat di atas.p
Untuk diskusi lebih lanjut tentang estimasi Bayes vs pengujian Bayesian, lihat estimasi parameter Bayesian atau pengujian hipotesis Bayesian? dan tautan di dalamnya.
Faktor Bayes minimum
Di antara para pihak yang berselisih ASA, ini secara eksplisit disarankan oleh Benjamin & Berger dan oleh Valen Johnson (satu-satunya dua makalah yang semuanya menyarankan alternatif konkret). Saran spesifik mereka sedikit berbeda tetapi mereka memiliki semangat yang sama.
Ide-ide dari Berger kembali ke Berger & Sellke 1987 dan ada sejumlah makalah oleh Berger, Sellke, dan kolaborator sampai tahun lalu menguraikan pekerjaan ini. Idenya adalah bahwa di bawah lonjakan dan lempengan sebelumnya di mana titik nol hipotesis mendapat probabilitas dan semua nilai lain dari mendapat probabilitas menyebar secara simetris sekitar ("alternatif lokal"), maka posterior minimal atas semua alternatif lokal, yaitu faktor Bayes minimal , jauh lebih tinggi daripada nilai . Ini adalah dasar dari klaim (yang banyak diperebutkan) ituμ=00.5μ0.50p(H0)pp -nilai "melebih-lebihkan bukti" terhadap nol. Sarannya adalah menggunakan batas yang lebih rendah pada faktor Bayes untuk nilai nol, bukan nilai ; di bawah beberapa asumsi luas batas bawah ini ternyata diberikan oleh , yaitu, -value secara efektif dikalikan dengan yang merupakan faktor sekitar hingga untuk persamaan rentang -nilai. Pendekatan ini telah didukung oleh Steven Goodman juga.p−eplog(p)p−elog(p)1020p
Pembaruan selanjutnya: Lihat kartun yang bagus yang menjelaskan ide-ide ini dengan cara yang sederhana.
Bahkan kemudian pembaruan: Lihat Dimiliki & Ott, 2018, On -Values dan Bayes Factorsp untuk tinjauan komprehensif dan analisis lebih lanjut dari mengkonversi nilai untuk faktor Bayes minimum. Berikut ini satu tabel dari sana:p
Valen Johnson menyarankan hal serupa dalam makalah PNAS 2013-nya ; sarannya kira-kira bermuara pada mengalikan nilai- dengan yaitu sekitar hingga .p−4πlog(p)−−−−−−−−−√510
Untuk kritik singkat terhadap makalah Johnson, lihat balasan Andrew Gelman's dan @ Xi'an di PNAS. Untuk pertentangan argumen dengan Berger & Sellke 1987, lihat Casella & Berger 1987 (Berger berbeda!). Di antara makalah diskusi APA, Stephen Senn berargumen secara eksplisit menentang salah satu dari pendekatan ini:
Probabilitas kesalahan bukan probabilitas posterior. Tentu saja, ada jauh lebih banyak untuk analisis statistik daripada nilai- tetapi mereka harus dibiarkan sendiri daripada cacat dalam beberapa cara untuk menjadi probabilitas posterior Bayesian kelas dua.P
Lihat juga referensi di koran Senn, termasuk yang ada di blog Mayo.
Pernyataan ASA mencantumkan "pemodelan keputusan-teoritik dan tingkat penemuan yang salah" sebagai alternatif lain. Saya tidak tahu apa yang mereka bicarakan, dan saya senang melihat ini dinyatakan dalam makalah diskusi oleh Stark:
Bagian "pendekatan lain" mengabaikan fakta bahwa asumsi beberapa metode tersebut identik dengan value. Memang, beberapa metode menggunakan nilai- sebagai input (misalnya, False Discovery Rate).pp
Saya sangat skeptis bahwa ada sesuatu yang dapat menggantikan nilai- dalam praktik ilmiah aktual sehingga masalah yang sering dikaitkan dengan nilai- (krisis replikasi, -hacking, dll.) Akan hilang. Prosedur keputusan tetap, misalnya satu Bayesian, mungkin dapat "hack" dalam cara yang sama seperti -values dapat -hacked (untuk beberapa diskusi dan demonstrasi ini melihat ini 2014 posting blog oleh Uri Simonsohn ).ppppp
Mengutip dari makalah diskusi Andrew Gelman:
Singkatnya, saya setuju dengan sebagian besar pernyataan ASA tentang nilai- tetapi saya merasa bahwa masalahnya lebih dalam, dan bahwa solusinya bukan untuk mereformasi nilai- atau untuk menggantinya dengan beberapa ringkasan atau ambang batas statistik lainnya, melainkan untuk bergerak menuju penerimaan yang lebih besar akan ketidakpastian dan merangkul variasi.pp
Dan dari Stephen Senn:
Singkatnya, masalahnya kurang dengan nilai- per se tetapi dengan membuat idola dari mereka. Mengganti dewa palsu lain tidak akan membantu.P
Dan di sini adalah bagaimana Cohen memasukkannya ke dalam makalahnya yang terkenal dan sangat banyak dikutip (kutipan 3.5k) 1994 Bumi itu bulat ( ) dip<0.05 mana ia berargumen dengan sangat kuat terhadap nilai- :p
[...] tidak mencari alternatif ajaib untuk NHST, beberapa ritual mekanis objektif lainnya untuk menggantikannya. Itu tidak ada.