Benjamini & Hochberg mendefinisikan tingkat penemuan palsu dengan cara yang sama yang saya lakukan, sebagai bagian dari tes positif yang positif palsu. Jadi, jika Anda menggunakan prosedur mereka untuk beberapa perbandingan, Anda mengontrol FDR dengan benar. Perlu dicatat, bahwa ada banyak varian pada metode BH. Seminar Benjamini di Berkeley ada di Youtube, dan layak ditonton:
Saya tidak yakin mengapa @amoeba mengatakan "Ini dirumuskan terlalu kuat dan benar-benar dapat menyesatkan". Saya tertarik untuk mengetahui mengapa dia berpikir demikian. Argumen paling persuasif berasal dari uji t simulasi (bagian 6). Itu meniru apa yang hampir semua orang lakukan dalam praktik dan itu menunjukkan bahwa jika Anda mengamati P mendekati 0,047, dan mengklaim telah membuat penemuan, Anda akan salah setidaknya 26% dari waktu. Apa yang salah?
Tentu saja, saya seharusnya tidak menggambarkan ini sebagai minimum. Itu yang Anda dapatkan jika Anda berasumsi bahwa ada kemungkinan 50% dari ada efek nyata. Tentu saja jika Anda berasumsi bahwa sebagian besar hipotesis Anda benar di muka, maka Anda bisa mendapatkan FDR lebih rendah dari 26%, tetapi dapatkah Anda bayangkan kegembiraan yang akan menyapa klaim bahwa Anda akan membuat penemuan berdasarkan asumsi bahwa Anda 90% yakin sebelumnya bahwa kesimpulan Anda akan benar. 26% adalah FDR minimum mengingat bahwa itu bukan dasar yang masuk akal untuk mengambil kesimpulan untuk probabilitas sebelumnya lebih besar dari 0,5.
Mengingat bahwa firasat sering tidak bertahan ketika diuji, bisa jadi hanya ada 10% kemungkinan hipotesis tertentu menjadi benar, dan dalam hal itu FDR akan menjadi 76% bencana.
Memang benar bahwa semua ini bergantung pada hipotesis nol bahwa tidak ada perbedaan (yang disebut titik nol). Pilihan lain dapat memberikan hasil yang berbeda. Tetapi poin nol adalah apa yang hampir semua orang gunakan dalam kehidupan nyata (meskipun mungkin tidak menyadarinya). Lebih jauh lagi, titik nol menurut saya sepenuhnya hal yang tepat untuk digunakan. Terkadang keberatan bahwa perbedaan sejati tidak pernah benar-benar nol. Saya tidak setuju. Kami ingin memberi tahu apakah hasil kami tidak dapat dibedakan dari kasus di mana kedua kelompok diberi perlakuan yang sama, sehingga perbedaan sebenarnya adalah nol. Jika kami memutuskan bahwa data yang keluar tidak kompatibel dengan tampilan itu, kami melanjutkan untuk memperkirakan ukuran efek. dan pada saat itu kami membuat penilaian terpisah tentang apakah efeknya, meskipun nyata, cukup besar untuk menjadi penting dalam praktik.Blog Deborah Mayo .
@amoeba Terima kasih atas tanggapan Anda.
Apa yang ditunjukkan oleh diskusi di blog Mayo adalah bahwa Mayo tidak setuju dengan saya, meskipun dia belum menjelaskan mengapa, paling tidak kepada saya). Stephen Senn menunjukkan dengan benar bahwa Anda bisa mendapatkan jawaban yang berbeda jika Anda mendalilkan distribusi sebelumnya yang berbeda. Bagi saya itu tampaknya menarik hanya untuk orang Bayes subyektif.
Ini tentu tidak relevan dengan praktik sehari-hari yang selalu mengasumsikan titik nol. Dan seperti yang saya jelaskan, menurut saya itu adalah hal yang sangat masuk akal untuk dilakukan.
Banyak ahli statistik profesional sampai pada kesimpulan yang hampir sama dengan saya. Coba Sellke & Berger, dan Valen Johnson (referensi di makalah saya). Tidak ada yang sangat kontroversial (atau sangat orisinal) tentang klaim saya.
Poin Anda yang lain, tentang asumsi 0,5 sebelumnya, bagi saya tampaknya tidak menjadi asumsi sama sekali. Seperti yang saya jelaskan di atas, apa pun di atas 0,5 akan menjadi tidak dapat diterima dalam praktik. Dan apa pun di bawah 0,5 membuat tingkat penemuan palsu lebih tinggi (misalnya 76% jika sebelumnya adalah 0,1). Oleh karena itu sangat masuk akal untuk mengatakan bahwa 26% adalah tingkat penemuan palsu minimum yang dapat Anda harapkan jika Anda mengamati P = 0,047 dalam satu percobaan.
Saya telah memikirkan lebih lanjut tentang pertanyaan ini. Definisi saya tentang FDR adalah sama dengan Benjamini - sebagian kecil dari tes positif yang salah. Tapi itu diterapkan pada masalah yang sangat berbeda, yaitu interpretasi dari satu tes. Dengan melihat ke belakang mungkin akan lebih baik jika saya memilih istilah yang berbeda.
Dalam kasus pengujian tunggal, B&H membiarkan nilai P tidak berubah, sehingga tidak mengatakan apa-apa tentang tingkat penemuan palsu dalam arti bahwa saya menggunakan istilah tersebut.
es tentu saja kamu benar. Benjamini & Hochberg, dan orang lain yang bekerja pada banyak perbandingan, bertujuan hanya untuk memperbaiki tingkat kesalahan tipe 1. Jadi mereka berakhir dengan nilai P "benar". Ini memiliki masalah yang sama dengan nilai P lainnya. Dalam makalah terbaru saya, saya mengubah nama dari FDR menjadi False Positive Risk (FPR) dalam upaya untuk menghindari kesalahpahaman ini.
Kami juga telah menulis aplikasi web untuk melakukan beberapa perhitungan (setelah memperhatikan bahwa beberapa orang mengunduh skrip R yang kami sediakan). Ada di https://davidcolquhoun.shinyapps.io/3-calcs-final/ Semua pendapat tentang hal itu disambut baik (harap baca tab Notes terlebih dahulu).
PS Kalkulator web sekarang memiliki yang baru (permanen, saya harap) di http://fpr-calc.ucl.ac.uk/
Shiny.io mudah digunakan, tetapi sangat mahal jika ada yang benar-benar menggunakan aplikasi :-(
Saya telah kembali ke diskusi ini, sekarang makalah kedua saya tentang topik ini akan muncul di Royal Society Open Science. Itu ada di https://www.biorxiv.org/content/early/2017/08/07/144337
Saya menyadari bahwa kesalahan terbesar yang saya buat di koran pertama adalah menggunakan istilah "tingkat penemuan palsu (FDR)". Dalam makalah baru saya membuatnya lebih eksplisit bahwa saya tidak mengatakan apa-apa tentang masalah perbandingan banyak. Saya hanya berurusan dengan pertanyaan tentang bagaimana menafsirkan nilai P yang diamati dalam tes tunggal yang tidak bias.
Dalam versi terbaru, saya merujuk pada probabilitas bahwa hasilnya sebagai risiko positif palsu (FPR) daripada FDR, dengan harapan mengurangi kebingungan. Saya juga menganjurkan pendekatan Bayesian terbalik -menentukan probabilitas sebelumnya yang akan diperlukan untuk memastikan FPR dari, katakanlah, 5%. Jika Anda mengamati P = 0,05, itu berarti 0,87. Dengan kata lain Anda harus hampir (87%) yakin bahwa ada efek nyata sebelum melakukan percobaan untuk mencapai FPR 5% (yang sebagian besar orang masih percaya, keliru, p = 0,05 berarti).