Apa penyebab masalah perbandingan multipel?

Saya memahami intuisi di balik MCP tetapi saya mengalami kesulitan menentukan dengan tepat penyebabnya, apa yang harus dihindari, atau setidaknya diperhitungkan.

Dalam definisi yang paling blak-blakan, saya setuju bahwa jika saya mengambil data apa pun dan menerapkan pendekatan brute force untuknya mencoba setiap hipotesis nol yang mungkin, saya akhirnya akan menemukan satu yang dapat ditolak dengan alfa sewenang-wenang (misalnya, 5%) dan menyatakan sebuah penemuan.

Tetapi dalam banyak definisi MCP saya membaca sesuatu seperti "semakin Anda menguji semakin besar kemungkinan Anda akan menemukan", dan meskipun saya setuju, saya tidak perlu melihatnya sebagai masalah (atau setidaknya akar dari masalah). Misalnya, jika banyak peneliti menganalisis fenomena yang sama dengan data yang tersedia yang sama, masing-masing menguji hipotesisnya sendiri, kemungkinan besar seseorang akan mencapai penemuan (daripada jika hanya satu peneliti), apakah itu berarti bahwa mereka harus menerapkan beberapa jenis koreksi untuk alfa target mereka (misalnya, koreksi Bonferroni )? Saya berasumsi jawabannya adalah tidak, tetapi kemudian tidak menjadi jelas mengapa seorang peneliti tunggal menguji banyak hipotesis harus (sekali lagi, menyetujui bahwa sistem pengujian dapat disalahgunakan dan harus ada koreksi untuk itu).

Kapan peningkatan kesempatan ini untuk menemukan penemuan (menolak hipotesis nol) menjadi masalah? Ketika memikirkan penyebabnya, ada beberapa faktor yang muncul di pikiran, tetapi saya tidak yakin yang mana dari mereka (atau yang lain yang tidak tercantum di sini) yang lebih terkait dengan penyebab masalah ini:

Analisis post hoc : Saya mengerti bahwa hipotesis harus (lebih disukai) diformulasikan secara apriori, jika tidak, saya hanya melihat data yang mencoba menebak hipotesis mana yang dapat saya masukkan di bawah alfa yang diinginkan.
Menggunakan kembali data: Apakah masalahnya hilang jika saya menggunakan set data yang berbeda untuk setiap hipotesis yang saya uji? Peluang menemukan penemuan masih akan meningkatkan lebih banyak uji hipotesis I (bahkan pada set data yang berbeda).
Peneliti independen: menggunakan kembali contoh sebelumnya, apakah MCP terkait dengan tim / upaya penelitian yang sama? Atau itu berlaku untuk beberapa peneliti independen yang mengerjakan masalah yang sama (atau bahkan pada data yang sama atau serupa)?
Hipotesis independen: terkait dengan masalah sebelumnya, apakah masalah muncul (atau lebih kuat terwujud) ketika hipotesis independen? (karena saya membahas lebih banyak ruang pencarian) atau masalah utama adalah mencoba hipotesis serupa dengan variasi kecil (misalnya, mengatur parameter)?

Saya dapat merangkum poin-poin di atas, dalam interpretasi saya, karena (1) dan (2) menjadi bentuk mengurangi ruang pencarian (meminjam terminologi dari teori optimasi) di mana saya membuatnya lebih mudah untuk menemukan penemuan; dan (3) dan (4) menggunakan metode pencarian yang lebih ortogonal yang mencakup lebih banyak ruang pencarian ini setiap kali diterapkan (yaitu, setiap kali hipotesis diuji). Tetapi ini hanyalah beberapa kemungkinan penyebab yang bisa saya kemukakan, untuk membantu mendapatkan jawaban, masih banyak lagi yang saya lewatkan. Saya yakin.

Pertanyaan ini agaknya merupakan tindak lanjut dari yang sebelumnya yang menanyakan mengapa perbandingan ganda merupakan masalah , menimbulkan masalah yang mirip dengan perbedaan antara FWER dan FDR (jika saya memahami pertanyaan dengan benar). Dalam pertanyaan ini saya tidak menganggap itu sebagai masalah (walaupun saya akan lebih cenderung menggunakan FDR), kedua tingkat menyiratkan bahwa ada masalah ketika menganalisis lebih dari satu hipotesis (tapi saya gagal melihat perbedaan dari kasus ketika Saya menganalisis berbagai masalah yang tidak berhubungan, menemukan penemuan untuk masing-masing dari mereka dengan signifikansi 5%, yang berarti bahwa ketika saya telah "memecahkan" 100 masalah menolak hipotesis nol, 5 dari mereka - nilai yang tidak diharapkan - mungkin akan salah). The jawaban terbaik untuk pertanyaan itu tersirat bahwa tidak ada jawaban yang pasti untuk itu, dan mungkin tidak ada satu untuk pertanyaan ini juga, tetapi masih akan sangat membantu (setidaknya bagi saya) untuk menjelaskan sebanyak mungkin di mana penyebab kesalahan MCP berasal dari.

( Jawaban lain untuk pertanyaan yang sama menyarankan makalah yang menjelaskan manfaat dari perspektif model multilevel Bayesian atas perspektif klasik. Ini adalah pendekatan lain yang menarik yang perlu diselidiki tetapi ruang lingkup pertanyaan ini adalah kerangka kerja klasik.)

Sudah ada beberapa pertanyaan tentang masalah ini, banyak yang layak dibaca (misalnya, 1 , 2 , 3 , 4 ) yang membahas (dari berbagai perspektif) masalah yang diangkat di atas, tetapi saya masih merasakan jawaban yang lebih bersatu (jika itu mungkin) kurang, maka pertanyaan ini, yang saya harap tidak mengurangi SNR (sudah bermasalah) .

hypothesis-testing multiple-comparisons

— Paul Richards
sumber

"... semakin Anda menguji, semakin besar kemungkinan Anda akan menemukan" semata-mata karena kebetulan . FTFY . :) Yaitu, "semata-mata karena kebetulan" daripada "karena asosiasi yang benar."

— Alexis

Saya setuju, itu berlaku tidak hanya untuk Anda tetapi yang lain digabungkan. Namun, Anda tidak boleh membiarkan hal itu membuat Anda menunda melakukan analisis data eksplorasi yang kemudian dapat ditindaklanjuti secara ketat dan individual dengan data lain yang diperoleh secara independen.

— Robert Jones

Lihat ncbi.nlm.nih.gov/pmc/articles/PMC3659368 untuk contoh yang terkenal, penting, dan dramatis.

— whuber

Yang saya perhatikan adalah beberapa contoh kata "penemuan" dalam pertanyaan. Jika Anda membaca kembali pertanyaan yang menggantikan setiap "penemuan" dengan "penemuan palsu," itu mungkin membantu Anda memahami sifat masalah dengan lebih jelas.

— Russ Lenth

Tampaknya dengan diberi dataset, semakin kecil dataset dan semakin banyak peneliti yang mengerjakannya, semakin besar kemungkinan bahwa beberapa korelasi palsu akan ditemukan dalam dataset karena kebetulan. Itu menjadi serupa dengan sekelompok besar orang yang mencoba "menemukan" nomor tiket lotere yang menang. Hipotesis yang ditemukan pada satu set data perlu diverifikasi secara independen pada set data lain untuk mengurangi peluang bahwa penemuan itu salah; tetapi itu tergantung pada ukuran dataset, berapa banyak penelitian yang mengerjakannya, dan seberapa banyak Anda bisa mempercayai proses kebersihan data mereka.

— rinspy

Jawaban:

Intuisi Anda kira-kira benar, tetapi mungkin membantu untuk mempertimbangkan bagaimana perbandingan ganda merusak asumsi tes hipotesis itu sendiri. Ketika Anda melakukan tes hipotesis klasik, Anda menghasilkan nilai-p, yang merupakan ukuran bukti terhadap hipotesis nol. Nilai-p dibangun sedemikian rupa sehingga nilai yang lebih rendah merupakan bukti yang lebih besar terhadap nol, dan didistribusikan secara seragam di bawah hipotesis nol . Inilah yang memungkinkan Anda untuk menganggap hipotesis nol sebagai tidak masuk akal untuk nilai-p rendah (relatif terhadap tingkat signifikansi).

Misalkan Anda memutuskan untuk menguji $N > 1$ hipotesis tanpa membuat penyesuaian apa pun pada metode pengujian Anda untuk memperhitungkan beberapa perbandingan. Setiap nilai p untuk tes ini adalah variabel acak yang seragam di bawah hipotesis nol untuk tes itu. Jadi, jika tidak ada hipotesis alternatif dari tes ini yang benar (yaitu, semua hipotesis nol adalah benar) yang Anda miliki $p_1, ..., p_N \sim \text{U}(0, 1)$ (nilai-nilai ini umumnya tidak independen). Misalkan Anda memilih level signifikansi $0 < \alpha < 1$ dan Anda menguji semua hipotesis ini terhadap tingkat itu. Untuk melakukan ini, Anda melihat nilai-p yang diurutkan dan mengamati yang Anda miliki $p_{(1)} < ... < p_{(k)} < \alpha < p_{(k+1)} ... < p_{(N)}$ untuk beberapa $0 \leqslant k \leqslant N$ . Ini memberitahu Anda bahwa untuk tes pertama (sesuai dengan nilai-p yang dipesan) Anda harus menolak hipotesis nol untuk masing-masing tes tersebut. $k$

Apa masalah yang terjadi di sini? Nah, masalahnya adalah bahwa meskipun nilai-p dari masing-masing tes adalah seragam di bawah hipotesis nol masing-masing, nilai-p yang dipesan tidak seragam. Dengan memilih yang terendah $k$ nilai p yang berada di bawah tingkat signifikansi, Anda tidak lagi melihat variabel acak yang seragam di bawah hipotesis nol masing-masing. Bahkan, untuk ukuran besar $N$ , nilai-p terendah kemungkinan memiliki distribusi yang sangat terkonsentrasi di dekat nol, dan ini sangat mungkin berada di bawah tingkat signifikansi Anda, meskipun (dengan asumsi) semua hipotesis nol untuk pengujian Anda adalah benar.

Fenomena ini terjadi terlepas dari apakah nilai-p independen atau tidak, dan karena itu terjadi terlepas dari apakah Anda menggunakan data yang sama atau data yang berbeda untuk menguji hipotesis ini. Masalah dari beberapa perbandingan adalah bahwa nilai p yang lebih rendah dari $N$ tes akan memiliki distribusi nol marginal yang tidak seragam . Penyesuaian seperti upaya koreksi Bonferroni untuk menghadapinya dengan menyesuaikan nilai p atau tingkat signifikansi untuk membuat perbandingan yang memperhitungkan fenomena ini.

— Ben - Pasang kembali Monica
sumber

Jadi, jika kita mengambil contoh yang diberikan dalam OP dari satu peneliti yang melakukan beberapa tes pada satu dataset vs banyak peneliti individual yang melakukan satu tes masing-masing pada dataset yang sama sehingga himpunan nilai-p untuk yang pertama sama dengan kombinasi dari nilai p individu untuk yang terakhir, lalu apa? Nilai-p yang sama untuk salah satu tes signifikan dalam kasus terakhir, tetapi tidak signifikan setelah penyesuaian untuk MCP pada yang pertama? Jadi, ketika melakukan beberapa tes, lebih baik menulis makalah kolaboratif yang melibatkan sebanyak mungkin peneliti karena ada tes yang direncanakan? :)

— Bingung

Terlepas dari apakah Anda menulis satu makalah tentang 10 tes atau sepuluh makalah tentang 1 tes, masalahnya adalah sama --- ketika Anda melihat beberapa perbandingan, dan memilih tes dengan nilai-p rendah, maka tergantung pada pilihan itu p- nilai tidak lagi seragam. Jika sepuluh peneliti menulis sepuluh makalah individual yang melaporkan hasil tes individual, dan Anda menarik satu makalah dengan nilai p terendah (misalnya, untuk presentasi), karena memiliki nilai p terendah , maka tergantung pada pilihan itu nilai p tidak lagi seragam.

— Ben - Reinstate Monica

Maaf, tapi saya masih tidak yakin saya mengikuti argumen. Katakanlah, dataset yang sama diuji untuk dihasilkan dari 10 distribusi yang berbeda. Dan katakan bahwa untuk 3 dari tes ini nilai p di bawah ambang alfa. Jadi, ketika tes-tes ini dilakukan secara terpisah oleh masing-masing peneliti, daripada orang-orang yang diuji terhadap 3 distribusi ini dapat menolak nol data yang berasal dari distribusi tertentu yang dia uji, tetapi jika satu peneliti melakukan tes maka dia tidak dapat menolak 3 hipotesis nol?

— Bingung

Sangat mungkin bahwa setiap peneliti individu (tidak memiliki pengetahuan tentang tes lain) melakukan tes hipotesis tanpa penyesuaian apa pun, terhadap tingkat signifikansi standar. Namun, jika seseorang datang dan membaca semua makalah itu maka mereka harus memperhitungkan bukti agregat dari semuanya. Itu berarti bahwa jika mereka memilih kertas dengan nilai p terendah, mereka tidak boleh mengevaluasi nilai p itu secara terpisah dari yang lain. Melakukan hal itu akan membuat mereka bias terhadap penerimaan hipotesis-alternatif palsu.

— Ben - Reinstate Monica

(Ini benar-benar bagian dari masalah statistik yang lebih luas: Jika objek inferensi yang Anda gunakan dipengaruhi oleh data Anda, maka penggunaan objek inferensi yang tepat harus memperhitungkan ketergantungannya pada data.)

— Ben - Reinstate Monica

Anda tampaknya berasumsi bahwa seorang peneliti dapat mengetahui kapan suatu penemuan dibuat. Bukan itu masalahnya. Bahkan jika Anda "menemukan suatu penemuan", Anda tidak akan pernah bisa yakin bahwa Anda telah melakukannya (kecuali jika Anda adalah makhluk yang mahatahu), karena, walaupun terdengar kasar, yang membedakan alarm palsu dari penemuan dalam sains biasanya adalah beberapa tingkat "kepercayaan" manusia dalam analisis.

— Marsarius
sumber