Ini jelas akan menjadi mimpi buruk yang harus dilakukan dalam praktik, tetapi anggap itu bisa dilakukan: kami menunjuk seorang Sultan Statistik dan semua orang yang menjalankan tes hipotesis melaporkan nilai- mentah mereka ke lalim ini. Dia melakukan beberapa jenis koreksi perbandingan global dan membalas dengan versi yang dikoreksi.hal
Apakah ini akan mengantar ke zaman keemasan sains dan akal? Tidak, mungkin juga tidak.
Mari kita mulai dengan mempertimbangkan satu pasang hipotesis, seperti dalam uji- . Kami mengukur beberapa properti dari dua grup dan ingin membedakan antara dua hipotesis tentang properti itu:
Dalam sampel terbatas, nilai rata-rata tidak mungkin sama persis walaupun benar: kesalahan pengukuran dan sumber variabilitas lainnya dapat mendorong nilai individual. Namun,
H 0 : Kelompok-kelompok tersebut memiliki rata-rata yang sama. H A : Kelompok-kelompok memiliki cara yang berbeda. H 0 H 0tH0:HSEBUAH: Kelompok-kelompok tersebut memiliki nilai rata-rata yang sama. Kelompok-kelompok memiliki cara yang berbeda.
H0H0hipotesis dalam beberapa hal "membosankan", dan para peneliti biasanya khawatir dengan menghindari situasi "positif palsu" di mana mereka mengklaim telah menemukan perbedaan antara kelompok-kelompok di mana tidak ada yang benar-benar ada. Oleh karena itu, kami hanya menyebut hasil "signifikan" jika tampaknya tidak mungkin di bawah hipotesis nol, dan, dengan konvensi, bahwa ambang ketidaksamaan ditetapkan sebesar 5%.
Ini berlaku untuk satu tes. Sekarang anggaplah Anda memutuskan untuk menjalankan beberapa tes dan bersedia menerima 5% kemungkinan salah menerima untuk masing-masing. Dengan tes yang cukup, karena itu Anda hampir pasti akan mulai membuat kesalahan, dan banyak dari mereka.H0
Berbagai pendekatan beberapa koreksi dimaksudkan untuk membantu Anda kembali ke tingkat kesalahan nominal yang telah Anda pilih untuk ditoleransi untuk tes individu. Mereka melakukannya dengan cara yang sedikit berbeda. Metode yang mengontrol Tingkat Kesalahan Keluarga-Bijaksana , seperti prosedur Bonferroni , Sidak , dan Holm , mengatakan "Anda menginginkan peluang 5% untuk membuat kesalahan pada satu pengujian, jadi kami akan memastikan bahwa Anda tidak lebih dari 5 % kemungkinan membuat kesalahan di semua tes Anda. " Metode yang mengontrol Tingkat Penemuan Salahalih-alih katakan, "Anda tampaknya baik-baik saja dengan salah hingga 5% dari waktu dengan satu tes, jadi kami akan memastikan bahwa tidak lebih dari 5% dari 'panggilan' Anda salah ketika melakukan beberapa tes". (Lihat perbedaannya?)
Sekarang, anggaplah Anda mencoba untuk mengendalikan tingkat kesalahan menurut keluarga dari
semua tes hipotesis yang pernah dijalankan. Anda pada dasarnya mengatakan bahwa Anda menginginkan peluang <5% untuk menolak hipotesis nol apa pun, selamanya. Ini menetapkan ambang batas yang sangat tidak mungkin dan inferensi akan menjadi tidak berguna secara efektif tetapi ada masalah yang lebih mendesak: koreksi global Anda berarti Anda menguji "hipotesis gabungan" yang sama sekali tidak masuk akal seperti
H1:Obat XYZ mengubah jumlah sel T ∧Anggur tumbuh lebih baik di beberapa bidang ∧... ∧ ... ∧ ... ∧ ... ∧Pria dan wanita makan es krim dalam jumlah berbeda
Dengan koreksi False Discovery Rate, masalah numerik tidak begitu parah, tetapi masih berantakan secara filosofis. Alih-alih, masuk akal untuk mendefinisikan "keluarga" tes terkait, seperti daftar gen kandidat selama studi genomik, atau satu set nampan frekuensi waktu selama analisis spektral. Menyesuaikan keluarga Anda dengan pertanyaan spesifik memungkinkan Anda benar-benar menafsirkan kesalahan Tipe I Anda secara langsung. Misalnya, Anda bisa melihat sekumpulan nilai p yang dikoreksi FWER dari data genom Anda sendiri dan berkata, "Ada kemungkinan <5% bahwa salah satu gen ini adalah positif palsu." Ini jauh lebih baik daripada jaminan samar-samar yang mencakup kesimpulan yang dilakukan oleh orang yang tidak Anda pedulikan tentang topik yang tidak Anda pedulikan.
Sisi lain dari hal ini adalah bahwa ia memilih "keluarga" yang tepat dapat diperdebatkan dan sedikit subyektif (Apakah semua gen adalah satu keluarga atau bisakah saya mempertimbangkan kinase?) Tetapi itu harus diinformasikan oleh masalah Anda dan saya tidak percaya siapa pun telah secara serius menganjurkan mendefinisikan keluarga hampir secara luas.
Bagaimana dengan Bayes?
Analisis Bayesian menawarkan alternatif yang koheren untuk masalah ini - jika Anda bersedia untuk menjauh dari kerangka kesalahan Frequentist Type I / Type II. Kita mulai dengan beberapa non-komitmen sebelum berakhir ... yah ... semuanya. Setiap kali kita mempelajari sesuatu, informasi itu digabungkan dengan sebelum menghasilkan distribusi posterior, yang pada gilirannya menjadi prioritas untuk kali berikutnya kita mempelajari sesuatu. Ini memberi Anda aturan pembaruan yang koheren dan Anda bisa membandingkan berbagai hipotesis tentang hal-hal tertentu dengan menghitung faktor Bayes antara dua hipotesis. Anda mungkin bisa mempertimbangkan potongan besar model, yang bahkan tidak akan membuat ini sangat sulit.
Ada meme yang terus-menerus ... bahwa metode Bayesian tidak memerlukan beberapa koreksi perbandingan. Sayangnya, peluang posterior hanyalah statistik uji untuk frequentist (yaitu, orang yang peduli dengan kesalahan Tipe I / II). Mereka tidak memiliki properti khusus yang mengontrol jenis kesalahan ini (Mengapa mereka?) Dengan demikian, Anda kembali ke wilayah yang sulit ditembus, tetapi mungkin di tanah yang sedikit lebih berprinsip.
Argumen kontra Bayesian adalah bahwa kita harus fokus pada apa yang dapat kita ketahui sekarang dan dengan demikian tingkat kesalahan ini tidak sepenting itu.
Pada Reproduciblity
Anda tampaknya menyarankan bahwa beberapa perbandingan-koreksi yang tidak tepat adalah alasan di balik banyak hasil yang salah / tidak dapat diproduksi kembali. Perasaan saya adalah bahwa faktor-faktor lain lebih cenderung menjadi masalah. Yang jelas adalah bahwa tekanan untuk menerbitkan membuat orang menghindari eksperimen yang benar-benar menekankan hipotesis mereka (yaitu, desain eksperimen yang buruk).
Sebagai contoh, [dalam percobaan ini] (bagian dari reproduksi reproduksi Amgen (ir) 6 , ternyata tikus memiliki mutasi pada gen selain gen yang diinginkan. Andrew Gelman juga suka berbicara tentang Garden Forking Paths , di mana peneliti memilih rencana analisis (masuk akal) berdasarkan data, tetapi mungkin telah melakukan analisis lain jika data tampak berbeda. Ini mengembang -nilai dengan cara yang mirip dengan beberapa perbandingan, tetapi jauh lebih sulit untuk memperbaikinya setelah itu. mungkin juga memainkan peran, tetapi perasaan saya (dan harapan) adalah bahwa hal itu secara bertahap membaik.hal