Bagaimana seharusnya seorang peneliti perorangan memikirkan tingkat penemuan yang salah?

30

Saya telah mencoba untuk membungkus kepala saya di sekitar bagaimana False Discovery Rate (FDR) harus menginformasikan kesimpulan dari masing-masing peneliti. Misalnya, jika studi Anda kurang bertenaga, haruskah Anda mendiskon hasil Anda meskipun signifikan pada $\alpha = .05$ ? Catatan: Saya sedang berbicara tentang FDR dalam konteks memeriksa hasil beberapa studi secara agregat, bukan sebagai metode untuk beberapa koreksi tes.

Membuat asumsi (mungkin murah hati) bahwa $\sim.5$ dari hipotesis yang diuji adalah benar, FDR adalah fungsi dari tingkat kesalahan tipe I dan tipe II sebagai berikut:

FDR = \frac{α}{α + 1 - β} .

$\text{FDR} = \frac{\alpha}{\alpha+1-\beta}.$

Cukup beralasan bahwa jika sebuah studi kurang bertenaga , kita tidak boleh memercayai hasilnya, bahkan jika hasilnya signifikan, sama seperti kita terhadap studi yang didukung secara memadai. Jadi, seperti yang dikatakan oleh beberapa ahli statistik , ada keadaan di mana, "dalam jangka panjang", kami mungkin mempublikasikan banyak hasil signifikan yang salah jika kita mengikuti pedoman tradisional. Jika suatu badan penelitian dicirikan oleh studi yang secara konsisten kurang bertenaga (misalnya, literatur interaksi gen kandidat lingkungan dekade sebelumnya ), bahkan temuan signifikan yang direplikasi dapat dicurigai. $\times$

Menerapkan paket R extrafont, ggplot2dan xkcd, saya pikir ini mungkin berguna dikonseptualisasikan sebagai masalah perspektif: Hasil yang signifikan ...

Tidak begitu yakin...

Dengan informasi ini, apa yang harus dilakukan oleh masing-masing peneliti selanjutnya ? Jika saya memiliki perkiraan tentang seberapa besar efek yang saya pelajari seharusnya (dan karenanya perkiraan $1 - \beta$ , mengingat ukuran sampel saya), haruskah saya menyesuaikan level saya $\alpha$ sampai FDR = 0,05? Haruskah saya mempublikasikan hasil pada tingkat $\alpha = .05$ bahkan jika studi saya kurang bertenaga dan memberikan pertimbangan FDR kepada konsumen literatur?

Saya tahu ini adalah topik yang telah sering dibahas, baik di situs ini maupun dalam literatur statistik, tetapi sepertinya saya tidak dapat menemukan konsensus pendapat tentang masalah ini.

EDIT: Sebagai tanggapan terhadap komentar @ amoeba, FDR dapat diturunkan dari tabel kontingensi tingkat kesalahan tipe I / tipe II standar (maafkan kejelekannya):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Jadi, jika kita disajikan dengan temuan yang signifikan (kolom 1), kemungkinan itu salah dalam kenyataannya adalah alpha di atas jumlah kolom.

Tapi ya, kita dapat memodifikasi definisi FDR untuk mencerminkan probabilitas (sebelumnya) bahwa hipotesis yang diberikan adalah benar, meskipun kekuatan studi masih berperan: $(1 - \beta)$

FDR = \frac{α \cdot (1 - prior)}{α \cdot (1 - prior) + (1 - β) \cdot prior}

$\text{FDR} = \frac{\alpha \cdot (1- \text{prior})}{\alpha \cdot (1- \text{prior}) + (1-\beta) \cdot \text{prior}}$

— Richard Border
sumber

Ini mungkin tidak memberi Anda jawaban yang pasti untuk pertanyaan Anda, tetapi Anda mungkin menemukan inspirasi dalam teks ini .

— JohnRos

1

Makalah David Colquhoun yang Anda tautkan, baru-baru ini telah dibahas di sini (dengan @DavidColquhoun bergabung dengan diskusi itu sendiri), Anda mungkin tertarik untuk melihatnya.

— Amuba kata Reinstate Monica

2

Dari mana rumus untuk FDR dalam hal

dan

berasal? Mungkin saya bodoh, tetapi saya tidak mengerti mengapa itu harus benar. Saya perkirakan FDR akan tergantung pada prevalensi nol dalam populasi penelitian, yang tampaknya tidak masuk dalam formula Anda. Saya bingung.

α

$\alpha$

β

$\beta$

— Amoeba berkata Reinstate Monica

2

Baiklah, saya harus mengambilnya kembali: rumus asli Anda benar dalam kasus khusus ketika probabilitas sebelumnya

. Anda sebenarnya sudah menulisnya selama ini, tetapi saya tidak menyadarinya; Maaf. Juga, Anda benar bahwa untuk setiap

diberikan (selain dari

, atau Anda

), FDR akan tumbuh dengan penurunan daya yang mencapai

pada daya nol. Jadi pertanyaan Anda masuk akal, +1.

p = 0.5

$p=0.5$

p

$p$

p = 0

$p=0$

prior = 1

$\text{prior}=1$

1

$1$

— Amoeba berkata Reinstate Monica

1

@Horst, "masalah" dengan studi kurang bertenaga (yang dijelaskan OP) adalah bahwa jika semua studi di beberapa bidang kurang bertenaga, maka mereka jarang akan mendeteksi efek yang sebenarnya, sedangkan dengan probabilitas

melaporkan penemuan palsu, yang dapat menyebabkan untuk sebagian besar penemuan yang dilaporkan palsu (yaitu untuk FDR yang sangat tinggi). Ini bukan situasi yang baik untuk memasuki bidang ilmiah.

α

$\alpha$

— Amuba mengatakan Reinstate Monica

6

$p$

Sebagai gantinya, penting untuk membuat semua studi dapat diakses, mengabaikan level daya atau hasil yang signifikan. Faktanya, kebiasaan buruk hanya mempublikasikan hasil yang tidak signifikan dan menyembunyikan bias publikasi dan merusak keseluruhan catatan hasil ilmiah.

Jadi peneliti individu harus melakukan penelitian dengan cara yang dapat direproduksi, menyimpan semua catatan dan mencatat semua prosedur eksperimental bahkan jika rincian seperti itu tidak ditanyakan oleh jurnal penerbitan. Dia seharusnya tidak terlalu khawatir tentang daya rendah. Bahkan hasil noninformatif (= hipotesis nol tidak ditolak) akan menambah lebih banyak penaksir untuk studi lebih lanjut, asalkan seseorang dapat memiliki kualitas data yang cukup.

$p$ $p$ $p$

— Horst Grünbusch
sumber

Horst, Anda sepertinya menjawab pertanyaan yang berbeda dari yang diminta.

— Alexis

1

Perhatikan bahwa pertanyaannya adalah tentang FDR antar studi, bukan di dalam. Ini melibatkan semacam pendekatan bayesian untuk memiliki tingkat keseluruhan keputusan yang benar yang dapat diterima. Jawaban saya menekankan bahwa penilaian secara keseluruhan lebih dilakukan dengan menggabungkan data studi dan perkiraan, bukan keputusan, sehingga masalah diselesaikan dengan menciptakan "studi virtual" yang besar, selama data (bukan keputusan) dari studi tunggal dapat diandalkan.

— Horst Grünbusch

6

$\alpha$ $\alpha=.05$

$\alpha$

$p<0.05$ $p\approx 0.05$ $p$ $p\ll 0.05$ $p$ -nilai lagi akan menjadi kecil).

$\alpha$

— amuba kata Reinstate Monica
sumber

5

Ini sebenarnya pertanyaan filosofis yang mendalam. Saya sendiri seorang peneliti dan saya sudah memikirkannya selama beberapa waktu. Tetapi sebelum jawaban, mari kita tinjau dengan tepat apa tingkat penemuan yang salah.

FDR versus P P hanyalah ukuran dari probabilitas mengatakan bahwa ada perbedaan, ketika tidak ada perbedaan sama sekali dan tidak memperhitungkan daya. FDR, di sisi lain, memperhitungkan daya. Namun, untuk menghitung FDR, kita harus membuat asumsi: berapa probabilitas bahwa kita menerima hasil positif sejati? Itu adalah sesuatu yang kita tidak akan pernah memiliki akses, kecuali dalam keadaan yang sangat dibuat-buat. Saya sebenarnya berbicara tentang ini baru-baru ini selama seminar yang saya berikan. Anda dapat menemukan slide di sini .

Berikut adalah gambar dari makalah David Colquhoun pada topik:

Calquhoun 2014

Tingkat penemuan salah dihitung dengan membagi jumlah positif palsu dengan jumlah positif positif dan palsu positif (dalam contoh, 495 / (80 + 495) x 100% = 86%!

Sedikit lagi di P

Perhatikan slide dari kuliah saya. Saya membahas fakta bahwa nilai P diambil dari suatu distribusi. Yang berarti bahwa akan selalu ada peluang bahwa Anda akan menemukan positif palsu. Jadi signifikansi statistik tidak boleh dianggap sebagai kebenaran absolut. Saya berpendapat bahwa sesuatu yang signifikan secara statistik harus ditafsirkan sebagai, "Hei, mungkin ada sesuatu yang menarik di sini, saya tidak yakin, seseorang pergi periksa!" Oleh karena itu, gagasan mendasar tentang reproduksibilitas dalam penelitian!

Jadi apa yang kita lakukan? Nah, poin yang menarik tentang gambar di atas dan analisis P dan FDR saya adalah bahwa satu-satunya cara kita dapat mencapai pemahaman yang jelas adalah melalui 1) reproduksibilitas dan 2) penerbitan semua hasil. Itu termasuk hasil negatif (walaupun hasil negatif sulit diinterpretasikan). Namun, kesimpulan yang kami ambil dari hasil kami harus sesuai. Sayangnya, banyak pembaca dan peneliti tidak sepenuhnya memahami pengertian P dan FDR. Saya percaya itu adalah tanggung jawab pembaca untuk menganalisis hasil dengan tepat ... yang berarti bahwa beban pada akhirnya berada di pundak pendidik. Setelah semua, nilai P 0,000000001 tidak ada artinya jika "prevalensi" (lihat gambar di atas) adalah 0 (dalam hal itu, tingkat penemuan palsu akan 100%).

Sebagai peneliti penerbitan, berhati-hatilah untuk sepenuhnya memahami hasil Anda dan membuat klaim hanya sekuat yang Anda mau. Jika ternyata FDR untuk studi khusus Anda adalah 86% (seperti contoh di atas), maka Anda harus sangat berhati-hati dengan interpretasi Anda. Di sisi lain, jika FDR cukup kecil untuk kenyamanan Anda .... masih hati-hati dengan interpretasi Anda.

Saya harap semuanya di sini jelas. Ini adalah konsep yang sangat penting dan saya senang Anda membuka diskusi. Beritahu saya jika Anda memiliki pertanyaan / masalah / dll.

— otak kanan
sumber

1

@Alexis Tidak ada studi yang terlalu kuat! Selama ukuran efek diperhatikan, tidak ada salahnya untuk dapat menentukan ukuran efek lebih dekat dengan melakukan penelitian dengan ukuran sampel yang lebih besar. Gagasan 'dikuasai' tampaknya bagi saya terikat pada gagasan kosong bahwa seseorang dapat membuat kesimpulan yang berguna dari melihat nilai-P tanpa melihat data yang diamati.

— Michael Lew

1

@MichaelLew: Anda benar bahwa masalah overpowering dapat (sebagian) diselesaikan jika Anda selalu mempertimbangkan ukuran efek yang diperkirakan bersama dengan nilai-p. Namun, ini sedikit mengalahkan tujuan nilai-p: Memetakan penaksir efek ke hasil tes biner "efek sekarang / tidak ada" sehingga tingkat kesalahan tipe I adalah benar. Juga, penilaian Anda apa ukuran efek yang relevan mungkin, dapat berubah saat Anda melihat nilai-p. Jadi sebenarnya lebih baik untuk mengatasi masalah dengan menentukan rentang efek yang relevan di muka dan kemudian membandingkannya dengan CI studi, seperti yang disarankan Alexis.

— Horst Grünbusch

1

θ

$\theta$

1

Untuk tingkat tertentu ... Saya benar-benar berbicara dalam hal inferensi statistik , sementara Anda berbicara lebih banyak tentang logika desain studi dan ontologi menghasilkan pengetahuan ilmiah. Yang mengatakan, saya merasa bahwa temuan positif yang tidak ditafsirkan dengan protokol perawatan hati, dll. Sama mungkin palsu dengan temuan negatif. Tidak semua fenomena alam semesta dapat diterima untuk dipelajari secara terpisah (mis. Kesehatan individu dan populasi secara simultan kimia, sosial, perilaku, dll.), Dan ketidakpastian ontologis harus menyertai studi dari sistem yang sedemikian kompleks.

— Alexis

2

@ HorstGrünbusch Saya tidak melihat pertanyaan asli diatur dalam konteks hibrid karena berurusan dengan alpha dan beta, bukan nilai-P. Namun, jawaban justanotherbrain tentu perlu bekerja kembali secara hati-hati untuk menempatkannya hanya dalam kerangka kerja Neyman & Pearson atau kerangka kerja pengujian signifikansi. Tingkat penemuan palsu benar-benar hanya milik mantan.

— Michael Lew

3

Untuk membantu memahami hubungan, saya membuat grafik FDR ini sebagai fungsi probabilitas sebelumnya untuk berbagai kekuatan (dengan alpha = 0,05). Perhatikan grafik ini, dan persamaan @Buckminster menghitung FDR untuk semua hasil dengan P kurang dari alpha. Grafik akan terlihat berbeda jika Anda hanya menganggap nilai P sangat dekat dengan nilai P yang kebetulan Anda amati dalam satu studi.

— Harvey Motulsky
sumber

2

dan inilah versi aplikasi Shiny (sedikit berbeda): buckminster.shinyapps.io/FalseDiscoveryRate

— Richard Border

1

Menyarankan publikasi adalah keputusan. Saya pikir bermanfaat untuk mempelajari apa manfaat dan biaya yang terkait dengan keputusan ini.

1) Lingkungan akademik secara universal mendorong para peneliti untuk menerbitkan lebih banyak, berpikir berbagai peringkat publikasi juga akan memengaruhi catatan ini. Kita dapat berasumsi bahwa jurnal yang lebih bergengsi mungkin memiliki pemeriksaan kualitas yang lebih kuat (saya harap begitu).

2) Mungkin ada biaya sosial yang terkait dengan produksi publikasi yang terlalu besar. Sumber daya ini mungkin lebih baik digunakan di tempat lain, seperti dalam penelitian terapan tanpa publikasi hasil. Baru-baru ini ada publikasi yang banyak publikasi tidak penting sebagai sumber karena jumlah publikasi baru sangat besar ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Bagi peneliti perorangan, kekuatan nomor satu untuk mempublikasikan lebih banyak dan saya pikir harus ada pemeriksaan kualitas yang dilembagakan yang tidak bergantung pada masing-masing individu untuk menjaga kualitas pada tingkat yang diterima.

Dalam hal apa pun, nilai parameter Anda bukan fakta, ini harus diberi nilai dengan mempertimbangkan berbagai biaya dan manfaat yang terkait dengan jumlah hasil yang dipublikasikan ketika hasilnya benar-benar dan / atau sangat signifikan.

— Analis
sumber