Mengapa pengujian hipotesis frequentist menjadi bias terhadap penolakan hipotesis nol dengan sampel yang cukup besar?

Saya baru saja membaca artikel ini tentang faktor Bayes untuk masalah yang sama sekali tidak terkait ketika saya menemukan bagian ini

Pengujian hipotesis dengan faktor Bayes lebih kuat daripada pengujian hipotesis frequentist, karena bentuk Bayesian menghindari bias pemilihan model, mengevaluasi bukti yang mendukung hipotesis nol, termasuk ketidakpastian model, dan memungkinkan model yang tidak bersarang untuk dibandingkan (walaupun tentu saja model harus memiliki variabel terikat yang sama). Juga, uji signifikansi frequentist menjadi bias dalam mendukung penolakan hipotesis nol dengan ukuran sampel yang cukup besar. [penekanan ditambahkan]

Saya telah melihat klaim ini sebelumnya dalam makalah Karl Friston 2012 di NeuroImage , di mana ia menyebutnya sebagai kesalahan inferensi klasik .

Saya agak kesulitan menemukan akun pedagogis yang benar tentang mengapa ini harus benar. Secara khusus, saya bertanya-tanya:

mengapa ini terjadi
bagaimana menjaga itu
gagal itu, bagaimana cara mendeteksinya

hypothesis-testing frequentist

— blz
sumber

Ini agak bisa diperdebatkan karena tidak benar ketika nol secara harfiah, benar, tetapi karena jarang terjadi (karena segala macam kompleksitas seperti korelasi palsu), mungkin benar untuk sebagian besar aplikasi praktis. Berbicara secara hipotesis, seseorang dapat mendeteksi korelasi palsu yang terlemah (misalnya, r = 0,001) karena rantai mediator yang panjangnya ratusan variabel meskipun jumlah moderator yang tidak terkontrol sama jika sampel cukup kolosal. Bisa dibilang, hubungan itu sebenarnya ada, jadi apakah itu benar-benar "bias" masih agak bisa diperdebatkan IMO ...

— Nick Stauner

@NickStauner, Ah yang benar-benar membuat banyak akal! Terima kasih atas penjelasan intuitifnya!

— blz

Tal Yarkoni menulis kritik yang sangat mencerahkan tentang artikel Friston: talyarkoni.org/blog/2012/04/25/…

— jona

@ jona, Sepertinya aku berlari ke kerumunan cogsci di sini =) Terima kasih untuk referensi, ini memang terlihat seperti bacaan yang bagus!

— blz

Dengan asumsi yang ada, pernyataan itu tampaknya benar-benar salah, tetapi semakin menjadi masalah nyata (bahwa dengan sampel yang cukup besar, NHST akan menjadi hampir pasti untuk menolak null palsu, tidak peduli seberapa kecil pengaruhnya) . Ketika orang menemukan masalah, itu biasanya menunjukkan bahwa pengujian hipotesis bukan yang mereka butuhkan. Masalah dasar yang sama (meskipun dibingkai dalam hal CI daripada tes hipotesis) dibahas dalam jawaban ini

— Glen_b

Jawaban:

$p$ $p$

Jawaban untuk pertanyaan 2: Dalam kerangka pengujian hipotesis yang sering dilakukan, seseorang dapat mencegah hal ini dengan tidak membuat kesimpulan semata-mata tentang mendeteksi perbedaan . Sebagai contoh, seseorang dapat menggabungkan kesimpulan tentang perbedaan dan kesetaraan sehingga seseorang tidak memihak (atau menyatukan!) Beban pembuktian pada bukti efek versus bukti tidak adanya efek . Bukti tidak adanya efek berasal dari, misalnya:

dua tes satu sisi untuk kesetaraan (TOST),
uji seragam yang paling kuat untuk kesetaraan , dan
$1-2\alpha$ $\alpha$

Apa yang didekati oleh semua bagian ini adalah keputusan apriori tentang ukuran efek yang merupakan perbedaan yang relevan dan hipotesis nol yang dibingkai dalam hal perbedaan setidaknya sebesar yang dianggap relevan.

$_{0}^{+}$ $_{0}^{-}$

Empat kemungkinan dari tes gabungan untuk perbedaan dan tes untuk kesetaraan

Perhatikan kuadran kiri atas: tes yang terlalu kuat adalah tes di mana ya Anda menolak hipotesis nol tidak ada perbedaan, tetapi Anda juga menolak hipotesis nol perbedaan yang relevan, jadi ya ada perbedaan, tetapi Anda memiliki apriori memutuskan Anda tidak peduli itu karena terlalu kecil.

Jawaban pertanyaan 3: Lihat jawaban 2.

— Alexis
sumber

Jawaban seperti ini adalah alasan saya terus datang ke sini. Terima kasih!

— blz

1 - α

$1-\alpha$

α

$\alpha$

2 α

$2\alpha$

Untuk melengkapi jawaban atas Pertanyaan 1, posting blog yang relevan dari Cosma Shalizi

Saya sedikit terkejut bahwa semua orang menemukan pertanyaan ini sangat membantu walaupun "Jawaban untuk pertanyaan 1" sebenarnya jauh lebih tepat dijawab oleh Michael Lew - Alexis, karena tampaknya hampir jelas bahwa ini akan tetap terjaga, mungkin Anda dapat memperbaiki jawaban Anda untuk mengatakan bahwa, secara matematis, tes hipotesis sebenarnya TIDAK BIASED oleh ukuran sampel besar, sesuai dengan definisi bias normal (sebaliknya, ukuran sampel kecil bisa menjadi masalah)!

— Florian Hartig

Saya memahami masalahnya, dan saya setuju dengan penilaian - itu tidak informatif atau menyesatkan untuk melakukan tes hipotesis ketika! H0 kemungkinan besar jauh di tempat pertama, dan Anda memiliki kekuatan mendekati 1. Tapi itu tidak membuat tes bias, kecuali definisi Anda tentang bias adalah bahwa metode memberikan hasil yang tepat untuk pertanyaan yang menurut Anda tidak boleh ditanyakan.

— Florian Hartig

Tes yang sering dilakukan dengan sampel besar JANGAN menunjukkan bias terhadap penolakan hipotesis nol jika hipotesis nol itu benar. Jika asumsi pengujian valid dan hipotesis nol benar maka tidak ada lagi risiko sampel besar yang mengarah pada penolakan hipotesis nol daripada sampel kecil. Jika nol tidak benar maka kita pasti akan senang untuk menolaknya, sehingga fakta bahwa sampel besar akan lebih sering menolak null palsu daripada sampel kecil bukan 'bias' tetapi perilaku yang sesuai.

Ketakutan akan 'eksperimen yang terlalu kuat' didasarkan pada anggapan bahwa menolak hipotesis nol adalah hal yang tidak baik bila hampir benar. Tetapi jika itu hanya hampir benar maka itu sebenarnya salah! Tolak, tetapi jangan luput memperhatikan (dan dengan jelas melaporkan) ukuran efek yang diamati. Mungkin sepele kecil dan karena itu tidak layak dipertimbangkan serius, tetapi keputusan tentang masalah itu harus dibuat setelah pertimbangan informasi dari luar tes hipotesis.

— Michael Lew
sumber

0

$0$

0 + really frickin' tiny

$0 + \text{really frickin' tiny}$

@Alexis Baca paragraf kedua lagi. Saya benar-benar setuju bahwa benar-benar kecil tidak penting secara substantif, tetapi juga tidak logis nol.

— Michael Lew

Maaf atas komentar yang tidak berharga untuk umum, tetapi @MichaelLew, saya sangat menyukai jawaban Anda. Kalimat pertama cukup penting dan saya tidak berpikir itu dijelaskan secara efisien dalam jawaban Alexis (yang juga bagus, tentu saja).

— Richard Hardy