Mengapa perbandingan berganda merupakan masalah?

44

Saya merasa sulit untuk memahami apa sebenarnya masalah dengan beberapa perbandingan . Dengan analogi sederhana, dikatakan bahwa seseorang yang akan membuat banyak keputusan akan membuat banyak kesalahan. Jadi pencegahan sangat konservatif diterapkan, seperti koreksi Bonferroni, sehingga untuk membuat probabilitas itu, orang ini akan membuat kesalahan sama sekali, serendah mungkin.

Tetapi mengapa kita peduli apakah orang tersebut telah melakukan kesalahan di antara semua keputusan yang dia buat, dan bukan persentase dari keputusan yang salah?

Biarkan saya mencoba menjelaskan apa yang membingungkan saya dengan analogi lain. Misalkan ada dua hakim, satu berusia 60 tahun, dan yang lain berusia 20 tahun. Kemudian koreksi Bonferroni memberi tahu seseorang yang berusia 20 tahun untuk menjadi sekonservatif mungkin, dalam memutuskan untuk dieksekusi, karena dia akan bekerja selama bertahun-tahun sebagai hakim, akan membuat lebih banyak keputusan, jadi dia harus berhati-hati. Tetapi yang berusia 60 tahun mungkin akan segera pensiun, akan membuat keputusan lebih sedikit, sehingga ia bisa lebih ceroboh dibandingkan yang lain. Namun sebenarnya, kedua hakim harus sama berhati-hati atau konservatif, terlepas dari jumlah keputusan yang akan mereka buat. Saya pikir analogi ini kurang lebih berarti masalah nyata di mana koreksi Bonferroni diterapkan, yang menurut saya berlawanan dengan intuisi.

hypothesis-testing multiple-comparisons

— AgCl
sumber

8

tidak benar-benar jawaban untuk pertanyaan Anda, tetapi apakah Anda pernah menemukan False Discovery Rates (FDR)? "Beyond Bonferroni" oleh Narum: springerlink.com/content/c5047h0084528056

— apeescape

40

Anda telah menyatakan sesuatu yang merupakan argumen balik klasik terhadap koreksi Bonferroni. Tidakkah saya harus menyesuaikan kriteria alfa saya berdasarkan pada setiap tes yang pernah saya buat? Implikasi iklan absurdum semacam ini adalah mengapa sebagian orang tidak percaya pada koreksi gaya Bonferroni sama sekali. Terkadang jenis data yang berhubungan dengan karier mereka sedemikian rupa sehingga ini bukan masalah. Untuk hakim yang membuat satu, atau sangat sedikit keputusan pada setiap bukti baru, ini adalah argumen yang sangat valid. Tetapi bagaimana dengan hakim dengan 20 terdakwa dan siapa yang mendasarkan penilaian mereka pada satu set besar data (misalnya pengadilan perang)?

Anda mengabaikan tendangan di bagian kaleng argumen. Umumnya para ilmuwan mencari sesuatu - nilai p kurang dari alpha. Setiap upaya untuk menemukan satu adalah tendangan lain di kaleng. Seseorang pada akhirnya akan menemukan satu jika seseorang mengambil cukup banyak tembakan padanya. Karena itu, mereka harus dihukum karena melakukan itu.

Cara Anda menyelaraskan kedua argumen ini adalah dengan menyadari bahwa keduanya sama-sama benar. Solusi paling sederhana adalah dengan mempertimbangkan pengujian perbedaan dalam satu dataset sebagai tendangan pada jenis kaleng masalah tetapi memperluas cakupan koreksi di luar yang akan menjadi lereng yang licin.

Ini adalah masalah yang benar-benar sulit di sejumlah bidang, terutama FMRI di mana ada ribuan titik data yang dibandingkan dan pasti ada beberapa yang muncul secara signifikan. Mengingat bahwa bidang ini secara historis sangat eksploratif, seseorang harus melakukan sesuatu untuk mengoreksi fakta bahwa ratusan area otak akan terlihat signifikan murni secara kebetulan. Oleh karena itu, banyak metode penyesuaian kriteria telah dikembangkan di bidang itu.

Di sisi lain, di beberapa bidang orang mungkin paling banyak melihat 3 hingga 5 level variabel dan selalu hanya menguji setiap kombinasi jika ANOVA yang signifikan terjadi. Ini diketahui memiliki beberapa masalah (kesalahan tipe 1) tetapi tidak terlalu buruk.

Itu tergantung pada sudut pandang Anda. Peneliti FMRI mengakui kebutuhan nyata untuk perubahan kriteria. Orang yang melihat ANOVA kecil mungkin merasa ada sesuatu yang jelas dari tes tersebut. Sudut pandang konservatif yang tepat pada banyak perbandingan adalah untuk selalu melakukan sesuatu tentang mereka tetapi hanya berdasarkan pada satu dataset. Setiap data baru mengatur ulang kriteria ... kecuali jika Anda seorang Bayesian ...

— John
sumber

Terima kasih, ini sangat membantu. Saya akan memilih itu ketika saya memiliki cukup perwakilan.

— AgCl

Peneliti FMRI mungkin juga akan menggunakan kriteria False Discovery Rate (FDR), karena itu menjamin alpha * 100% false positive selama periode pengujian yang panjang.

— Brandon Sherman

@ John, Tolong jawab pertanyaan ini stats.stackexchange.com/questions/431011/... Saya akan senang, jika Anda dapat membantu saya.

— Sabbir Ahmed

26

Para ahli statistik yang dihormati telah mengambil berbagai posisi dalam berbagai perbandingan. Itu subjek yang halus. Jika seseorang berpikir itu sederhana, saya ingin tahu berapa banyak mereka telah memikirkannya.

Berikut ini adalah perspektif Bayesian yang menarik tentang pengujian berganda dari Andrew Gelman: Mengapa kami tidak (biasanya) khawatir tentang beberapa perbandingan .

— John D. Cook
sumber

2

Apa yang menurut saya menarik dari makalah ini adalah bahwa perspektifnya adalah Bayesian, tetapi pendekatan pemodelan hierarkis yang ditawarkan untuk menggantikan koreksi untuk beberapa perbandingan tidak mengharuskan Anda menjadi Bayesian.

— conjugateprior

1

Saya hanya melihat artikel itu; Saya pikir mungkin perlu dikutip lebih banyak. Saya benci efek flushing karena teknik beberapa perbandingan canggih tidak dikenal atau mudah dilakukan. Sebaliknya, pendekatan lemah adalah drop mati sederhana. Saya bertanya-tanya apakah ada masalah serius dengan itu yang perlu dipertimbangkan.

— russellpierce

2

Tapi lihat posting Gelman 2014 Di salah satu ironi kehidupan yang mengerikan, saya menulis sebuah makalah “Mengapa kita (biasanya) tidak perlu khawatir tentang banyak perbandingan” tapi sekarang saya menghabiskan banyak waktu untuk mengkhawatirkan banyak perbandingan .

— Amuba mengatakan Reinstate Monica

13

Terkait dengan komentar sebelumnya, apa yang harus diingat oleh peneliti fMRI adalah bahwa hasil yang penting secara klinis adalah yang penting, bukan perubahan kepadatan satu piksel pada fMRI otak. Jika tidak menghasilkan perbaikan / kerugian klinis, itu tidak masalah. Itu adalah salah satu cara untuk mengurangi kekhawatiran tentang beberapa perbandingan.

Lihat juga:

Bauer, P. (1991). Beberapa pengujian dalam uji klinis. Stat Med, 10 (6), 871-89; diskusi 889-90.
Proschan, MA & Waclawiw, MA (2000). Pedoman praktis untuk penyesuaian multiplisitas dalam uji klinis. Control Clin Trials, 21 (6), 527-39.
Rothman, KJ (1990). Tidak diperlukan penyesuaian untuk beberapa perbandingan. Epidemiologi (Cambridge, Mass.), 1 (1), 43-6.
Perneger, TV (1998). Apa yang salah dengan penyesuaian bonferroni. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

— pmgjones
sumber

Ini juga patut dikutip: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg

— nico

Saya yakin mereka bersenang-senang bertanya pada salmon mati tentang emosinya !!!

— nico

Posting ini juga memiliki referensi yang berguna terkait dengan RCT: j.mp/bAgr1B .

— chl

10

$n$ $(X_i)_{i=1,\dots,n}$ $i=1,\dots,n$ $X_i$ $\mathcal{N}(\theta_i,1)$

$H_{0i} : \theta_i=0$ $H_{1i} : \theta_i\neq 0$

$n$ $i$ $\tau_i$ $H_{0i}$ $|X_i|>\tau_i$

$\tau_i$

pilih ambang yang sama untuk semua orang
untuk memilih ambang yang berbeda untuk semua orang (paling sering ambang batas data, lihat di bawah).

Tujuan berbeda: Opsi ini dapat didorong untuk berbagai tujuan seperti

$H_{0i}$ $i$
Mengontrol ekspektasi rasio alarm palsu (atau False Discovery Rate)

Apa pun tujuan Anda di akhir, merupakan ide bagus untuk menggunakan ambang batas data.

Jawaban saya untuk pertanyaan Anda: intuisi Anda terkait dengan heuristik utama untuk memilih ambang batas data. Berikut ini (pada asal prosedur Holm yang lebih kuat daripada Bonferoni):

$p$ $|X_{i}|$ $H_{0i}$ $n-p$ $H_{0i}$

Dalam kasus hakim Anda: Saya berasumsi (dan saya kira Anda harus melakukan hal yang sama) bahwa kedua hakim memiliki anggaran tuduhan palsu yang sama untuk hidup mereka. Hakim yang berusia 60 tahun itu mungkin kurang konservatif jika, di masa lalu, ia tidak menuduh siapa pun! Tetapi jika dia sudah membuat banyak tuduhan dia akan lebih konservatif dan bahkan mungkin lebih dari hakim yang paling kejam.

— robin girard
sumber

Saya pikir Anda memiliki kesalahan ketik dalam hipotesis Anda - keduanya tampaknya sama ...

— walkytalky

2

Artikel ilustrasi (dan lucu); http://www.jsur.org/ar/jsur_ben102010.pdf ) tentang perlunya koreksi pengujian berganda dalam beberapa studi praktis yang mengembangkan banyak variabel misalnya fmri. Kutipan singkat ini mengatakan sebagian besar pesan:

"[...] kami menyelesaikan sesi pemindaian fMRI dengan post-mortem Atlantic Salmon sebagai subjek. Salmon ditunjukkan tugas pengambilan perspektif sosial yang sama yang kemudian diberikan kepada sekelompok subjek manusia."

yaitu, dalam pengalaman saya, argumen yang hebat untuk mendorong pengguna menggunakan beberapa koreksi pengujian.

— peuhp
sumber