Adakah yang bisa menjelaskan bagaimana prosedur FDR dapat memperkirakan FDR tanpa model / asumsi tingkat dasar positif sebenarnya?
Adakah yang bisa menjelaskan bagaimana prosedur FDR dapat memperkirakan FDR tanpa model / asumsi tingkat dasar positif sebenarnya?
Jawaban:
Saya pikir itu pertanyaan yang sangat bagus; terlalu banyak orang menggunakan prosedur Benjamini-Hochberg (disingkat BH; mungkin prosedur yang paling populer untuk mengendalikan FDR) sebagai kotak hitam. Memang ada asumsi mendasar yang dibuatnya pada statistik dan disembunyikan dengan baik dalam definisi nilai-p!
Tetapi perhatikan di sini bahwa saya terus berbicara tentang hipotesis nol; jadi apa yang Anda sebutkan tentang pengetahuan tentang tingkat dasar dari positif sejati tidak diperlukan, Anda hanya perlu pengetahuan tentang tingkat dasar dari positif palsu! Kenapa ini?
Biarkan menunjukkan jumlah semua hipotesis yang ditolak (positif) dan positif palsu, lalu:
Jadi untuk memperkirakan FDR Anda memerlukan cara memperkirakan , . Kita sekarang akan melihat aturan keputusan yang menolak semua p-nilai . Untuk memperjelas hal ini dalam notasi saya juga akan menulis untuk jumlah yang sesuai / variabel acak dari prosedur tersebut.
Karena hanyalah ekspektasi dari total jumlah penolakan, Anda dapat memperkirakannya dengan jumlah yang tidak bias dengan jumlah penolakan yang Anda amati, jadi , yaitu hanya dengan menghitung berapa banyak nilai-p Anda .
Sekarang bagaimana dengan ? Nah menganggap dari Anda Total hipotesis null hipotesis, maka dengan keseragaman (atau sub-keseragaman) dari p-nilai di bawah nol Anda mendapatkan:
Tapi kita masih belum tahu , tapi kita tahu itu , jadi batas atas yang konservatif hanya akan . Karena itu, karena kita hanya perlu batas atas pada jumlah positif palsu, cukuplah kita mengetahui distribusinya! Dan inilah yang dilakukan prosedur BH.
Jadi, sementara komentar Aarong Zeng bahwa "prosedur BH adalah cara untuk mengendalikan FDR pada tingkat yang diberikan q. Ini bukan tentang memperkirakan FDR" tidak salah, itu juga sangat menyesatkan! Prosedur BH sebenarnya tidak memperkirakan FDR untuk setiap threshold yang diberikan . Dan kemudian memilih ambang batas terbesar, sehingga FDR yang diperkirakan di bawah . Memang "nilai p yang disesuaikan" dari hipotesis pada dasarnya hanyalah perkiraan FDR pada ambang batas (hingga isotonisasi). Saya pikir algoritma BH standar menyembunyikan fakta ini sedikit, tetapi mudah untuk menunjukkan kesetaraan dari dua pendekatan ini (juga disebut "teorema kesetaraan" dalam literatur pengujian berganda).
Sebagai komentar terakhir, memang ada metode seperti prosedur Storey yang bahkan memperkirakan dari data; ini dapat meningkatkan daya sedikit. Juga pada prinsipnya Anda benar, orang juga bisa memodelkan distribusi di bawah alternatif (tingkat dasar positif sejati Anda) untuk mendapatkan prosedur yang lebih kuat; tetapi sejauh ini beberapa penelitian pengujian telah berfokus pada mempertahankan kontrol kesalahan tipe-I daripada memaksimalkan daya. Satu kesulitan juga adalah bahwa dalam banyak kasus masing-masing alternatif sejati Anda akan memiliki distribusi alternatif yang berbeda (misalnya kekuatan yang berbeda untuk hipotesis yang berbeda), sementara di bawah nol semua nilai-p memiliki distribusi yang sama. Ini membuat pemodelan tingkat positif sejati bahkan lebih sulit.
Seperti yang disarankan oleh @air, prosedur Benjamini-Hochberg (BH) menjamin kontrol FDR. Itu tidak bertujuan memperkirakannya. Karena itu diperlukan asumsi ketergantungan yang lemah antara statistik uji. [1,2]
Metode yang bertujuan memperkirakan FDR [misalnya 3,4,5] memang memerlukan beberapa asumsi pada proses generatif untuk memperkirakannya. Mereka biasanya menganggap statistik uji independen. Mereka juga akan mengasumsikan sesuatu pada distribusi nol dari statistik uji. Berangkat dari distribusi nol ini, bersama dengan asumsi independensi, dengan demikian dapat dikaitkan dengan efek, dan FDR dapat diperkirakan.
Perhatikan bahwa ide-ide ini muncul kembali dalam literatur deteksi kebaruan yang semi-diawasi. [6].
[1] Benjamini, Y., dan Y. Hochberg. "Mengontrol Tingkat Penemuan Salah: Pendekatan Praktis dan Kuat untuk Pengujian Berganda." SERI MASYARAKAT STATISTIK JURNAL-ROYAL B 57 (1995): 289–289.
[2] Benjamini, Y., dan D. Yekutieli. "Kontrol Tingkat Penemuan Palsu dalam Berbagai Pengujian di bawah Ketergantungan." TAHUNAN STATISTIK 29, no. 4 (2001): 1165-88.
[3] Storey, JD "Pendekatan Langsung ke Tingkat Penemuan Salah." Jurnal The Royal Statistics Society Seri B 64, no. 3 (2002): 479–98. doi: 10.1111 / 1467-9868.00346.
[4] Efron, B. "Microarray, Bayes Empiris dan Model Dua-Grup." Ilmu Statistik 23, no. 1 (2008): 1-22.
[5] Jin, Jiashun, dan T. Tony Cai. "Memperkirakan Null dan Proporsi Efek Nonnull dalam Berbagai Perbandingan Skala Besar." Jurnal Asosiasi Statistik Amerika 102, no. 478 (1 Juni 2007): 495–506. doi: 10.1198 / 016214507000000167.
[6] Claesen, Marc, Jesse Davis, Frank De Smet, dan Bart De Moor. "Menilai Pengklasifikasi Biner Hanya Menggunakan Data Positif dan Tidak Berlabel." arXiv: 1504.06837 [cs, Stat], 26 April 2015. http://arxiv.org/abs/1504.06837 .
Ketika model mendasar yang sebenarnya tidak diketahui, kami tidak dapat menghitung FDR, tetapi dapat memperkirakan nilai FDR dengan uji permutasi . Pada dasarnya prosedur tes permutasi hanya melakukan tes hipotesis beberapa kali dengan mengubah vektor variabel hasil dengan permutasi. Ini juga dapat dilakukan berdasarkan permutasi sampel, tetapi tidak umum seperti yang sebelumnya.
Makalah di sini meninjau prosedur permutasi standar untuk estimasi FDR, dan juga mengusulkan estimator FDR baru. Seharusnya bisa menjawab pertanyaan Anda.