Arti "ketergantungan positif" sebagai syarat untuk menggunakan metode biasa untuk kontrol FDR


36

Benjamini dan Hochberg mengembangkan metode pertama (dan masih paling banyak digunakan, saya pikir) untuk mengendalikan tingkat penemuan palsu (FDR).

Saya ingin memulai dengan sekelompok nilai P, masing-masing untuk perbandingan yang berbeda, dan memutuskan mana yang cukup rendah untuk disebut "penemuan", mengendalikan FDR ke nilai yang ditentukan (katakanlah 10%). Salah satu asumsi dari metode yang biasa adalah bahwa seperangkat perbandingan adalah independen atau memiliki "ketergantungan positif" tetapi saya tidak dapat mengetahui dengan tepat apa arti frasa itu dalam konteks menganalisis seperangkat nilai P.


1
Terima kasih telah memberikan hadiah untuk jawaban saya, Harvey! Apakah Anda mengatakan itu menyelesaikan masalah ini untuk Anda, atau Anda mencari penjelasan yang lebih rinci? Saya perhatikan bahwa Anda belum menerima jawaban apa pun, itu sebabnya saya ingin mengklarifikasi. Terima kasih. Mungkin Anda bisa berkomentar atau mengedit Q Anda untuk mengklarifikasi apa yang masih ingin Anda klarifikasi.
Amoeba berkata Reinstate Monica

2
@amuba. Batas waktu untuk hadiah itu ada pada saya, dan jawaban Anda sejauh ini adalah yang terbaik. Terus terang, tidak pernah terpikir oleh saya pada saat itu bahwa memberi hadiah tidak juga menerima jawaban. Tapi saya tahu itu berbeda (saya akan menyalahkan jet lag). Tetapi jawaban lengkap benar-benar perlu memasukkan contoh-contoh realistis di mana set nilai P baik dan tidak memiliki ketergantungan positif. Saya akan menunda menerima jawaban selama seminggu dengan harapan bahwa seseorang dapat memberikan kedua jenis contoh, sehingga artinya jelas.
Harvey Motulsky

Ini mungkin bukan contoh yang memuaskan, tetapi sangat mudah untuk menghasilkan nilai-p dengan dan tanpa ketergantungan positif jika kita berpikir untuk melakukan tes satu-ekor pada variabel yang berkorelasi. Bayangkan saya sedang menguji apakah A = 0 dan juga apakah B = 0 terhadap alternatif satu sisi (A> 0 dan B> 0). Bayangkan lebih lanjut bahwa B tergantung pada A. Misalnya, bayangkan saya ingin tahu apakah suatu populasi mengandung lebih banyak wanita daripada pria, dan juga apakah populasi itu mengandung lebih banyak ovarium daripada testis. Jelas mengetahui nilai-p dari pertanyaan pertama mengubah harapan kita akan nilai-p untuk yang kedua
Jacob Socolar

Terima kasih, Harvey. Saya harap jelas bahwa saya tidak mencoba mendorong Anda untuk menerima jawaban saya (!!) melainkan untuk memperjelas jawaban seperti apa yang Anda cari di utas ini, dan apa yang masih ingin Anda klarifikasi. Saya tidak benar-benar ahli dalam topik ini, hanya mencoba memahaminya.
Amuba kata Reinstate Monica

Kedua nilai-p berubah dalam arah yang sama, dan ini adalah PRD. Tetapi jika saya sebaliknya menguji hipotesis kedua bahwa populasi 2 memiliki lebih banyak testis daripada ovarium, harapan kami untuk nilai-p kedua menurun ketika nilai-p pertama meningkat. Ini bukan PRD.
Jacob Socolar

Jawaban:


20

Dari pertanyaan Anda dan khususnya komentar Anda hingga jawaban lain, menurut saya Anda terutama bingung tentang "gambaran besar" di sini: yaitu, apa yang dimaksud dengan "ketergantungan positif" dalam konteks ini sama sekali - sebagai lawan dari apa adalah arti teknis dari kondisi PRDS. Jadi saya akan berbicara tentang gambaran besarnya.

Gambar besar

Bayangkan bahwa Anda menguji nol hipotesis, dan membayangkan bahwa semua dari mereka adalah benar. Masing-masing nilai- adalah variabel acak; Mengulangi percobaan berulang-ulang akan menghasilkan nilai berbeda setiap kali, sehingga orang dapat berbicara tentang distribusi nilai- (di bawah nol). Sudah diketahui umum bahwa untuk setiap pengujian, distribusi nilai- bawah nol harus seragam; jadi dalam hal pengujian multi-byte , semua distribusi marginal -nilai akan seragam.N p p p p N pNN ppppNp

Jika semua data dan semua tes adalah independen satu sama lain, maka distribusi dimensi bersama dari nilai- juga akan seragam. Ini akan benar misalnya dalam situasi klasik "jelly-bean" ketika banyak hal independen sedang diuji:N pNNp

kacang jeli hijau

Namun, tidak harus seperti itu. Setiap pasangan nilai pada prinsipnya dapat dikorelasikan, baik secara positif atau negatif, atau bergantung dengan cara yang lebih rumit. Pertimbangkan menguji semua perbedaan berpasangan dalam cara antara empat kelompok; ini tes. Masing-masing dari enam nilai- saja didistribusikan secara seragam. Tetapi mereka semua berkorelasi positif: jika (pada upaya yang diberikan) kelompok A secara kebetulan memiliki rata-rata yang sangat rendah, maka perbandingan A-vs-B mungkin menghasilkan nilai- rendah (ini akan menjadi positif palsu). Tetapi dalam situasi ini kemungkinan bahwa A-vs-C, serta A-vs-D, juga akan menghasilkan nilai- rendah . JadiN = 4 3 / 2 = 6 p p p ppN=43/2=6pppp-Nilai jelas tidak independen dan terlebih lagi mereka berkorelasi positif antara satu sama lain.

Ini, secara informal, apa yang dimaksud dengan "ketergantungan positif".

Ini tampaknya merupakan situasi umum dalam banyak pengujian. Contoh lain akan menguji perbedaan dalam beberapa variabel yang saling berkorelasi. Memperoleh perbedaan yang signifikan di salah satu dari mereka meningkatkan peluang untuk mendapatkan perbedaan yang signifikan di yang lain.

Sulit untuk memberikan contoh alami di mana nilai- akan "tergantung negatif". @ user43849 berkomentar di komentar di atas bahwa untuk tes satu sisi mudah:p

Bayangkan saya sedang menguji apakah A = 0 dan juga apakah B = 0 terhadap alternatif satu sisi (A> 0 dan B> 0). Bayangkan lebih lanjut bahwa B tergantung pada A. Misalnya, bayangkan saya ingin tahu apakah suatu populasi mengandung lebih banyak wanita daripada pria, dan juga apakah populasi itu mengandung lebih banyak ovarium daripada testis. Mengetahui dengan jelas nilai-p dari pertanyaan pertama mengubah harapan kita akan nilai-p untuk pertanyaan kedua. Kedua nilai-p berubah dalam arah yang sama, dan ini adalah PRD. Tetapi jika saya sebaliknya menguji hipotesis kedua bahwa populasi 2 memiliki lebih banyak testis daripada ovarium, harapan kami untuk nilai-p kedua menurun ketika nilai-p pertama meningkat. Ini bukan PRD.

Tapi saya sejauh ini tidak dapat memberikan contoh alami dengan titik nol.


Sekarang, formulasi matematis yang tepat dari "ketergantungan positif" yang menjamin validitas prosedur Benjamini-Hochberg agak rumit. Seperti disebutkan dalam jawaban lain, referensi utama adalah Benjamini & Yekutieli 2001 ; mereka menunjukkan bahwa properti PRDS ("ketergantungan regresi positif pada masing-masing dari subset") memerlukan prosedur Benjamini-Hochberg. Ini adalah bentuk relaks dari properti PRD ("dependensi regresi positif"), yang berarti PRD mengimplikasikan PRDS dan karenanya juga memerlukan prosedur Benjamini-Hochberg.

Untuk definisi PRD / PRDS lihat jawaban @ user43849 (+1) dan kertas Benjamini & Yekutieli. Definisi agak teknis dan saya tidak memiliki pemahaman intuitif yang baik tentang mereka. Bahkan, B&Y menyebutkan beberapa konsep lain yang terkait juga: kepositifan total multivariat ketertiban dua (MTP2) dan hubungan positif. Menurut B&Y, mereka terkait sebagai berikut (diagram adalah milikku):

PRD, PRDS, MTP2, dan PA

MTP2 menyiratkan PRD yang menyiratkan PRDS yang menjamin kebenaran prosedur BH. PRD juga menyiratkan PA, tetapi PA PRDS.


Apakah contoh ketergantungan negatif adalah tes berpasangan post hoc mengikuti, katakanlah, ANOVA satu arah dari tiga kelompok, di mana , tetapi ˉ x B < μ B , sedangkan ˉ x Aμ A , dan ˉ x Cμ C , maka sementara p A  vs  B adalah kurang kemungkinan untuk menolak (karena di bawah H 0 | ˉ x A - ˉμA<μB<μCx¯B<μBx¯AμAx¯CμCpA vs. BH0 ), Namun karena ketergantunganpB vs Cadalahlebihcenderung untuk menolak? |x¯Ax¯B|<|x¯Bx¯C|pB vs. C
Alexis

1
@Alexis Saya sendiri berpikir seperti ini, tetapi saya tidak berpikir ini bekerja karena kita perlu mempertimbangkan apa yang terjadi di bawah nol . Dalam kasus ini, nolnya adalah , dan alasan Anda rusak. μA=μB=μC
Amuba mengatakan Reinstate Monica

Jadi, jika sulit untuk memikirkan situasi ketergantungan negatif, maka prosedur Benjamini-Hochberg berlaku untuk situasi seperti tes berpasangan post hoc berikut penolakan terhadap hipotesis nol omnibus nol mengenai kelompok independen (mis. Oneway tidak diblokir ANOVA, Cochran Q, Kruskal- Wallis, dll.)?
Alexis

@Alexis Saya percaya ini benar, ya. Saya masih mencoba untuk memberikan contoh alami dengan ketergantungan negatif ...
amoeba berkata Reinstate Monica

BATU! Anda pergi gadis! :) (Untuk makna bebas gender dari kata "gadis";).
Alexis

18

Pertanyaan bagus! Mari melangkah mundur dan memahami apa yang dilakukan Bonferroni, dan mengapa Benjamini dan Hochberg perlu mengembangkan alternatif.

Menjadi penting dan wajib dalam beberapa tahun terakhir untuk melakukan prosedur yang disebut koreksi pengujian berganda. Hal ini disebabkan oleh meningkatnya jumlah tes yang dilakukan secara bersamaan dengan ilmu throughput yang tinggi, terutama dalam genetika dengan munculnya seluruh studi asosiasi genom (GWAS). Maafkan referensi saya untuk genetika, karena itu adalah bidang pekerjaan saya. Jika kita melakukan 1.000.000 tes secara bersamaan pada , kita akan mengharapkan 50 , 000 positif palsu. Ini luar biasa besar, dan karenanya kita harus mengendalikan tingkat di mana nilai signifikansi dinilai. Koreksi bonferroni, yaitu, membagi ambang penerimaan (0,05) dengan jumlah tes independen ( 0,05 / MP=0.0550,000 mengoreksi untuk tingkat kesalahan bijaksana keluarga ( F W E R ).(0.05/M)FWER

Hal ini benar karena FWER yang berkaitan dengan tingkat kesalahan uji-bijaksana ( ) dengan persamaan F W E R = 1 - ( 1 - T W E R ) M . Artinya, 100 persen minus 1 kurangi tingkat kesalahan bijak tes dinaikkan ke kekuatan jumlah tes independen yang dilakukan. Membuat asumsi bahwa ( 1 - 0,05 ) 1 / M = 1 - 0,05TWERFWER=1(1TWER)M memberikanTWER0,05(10.05)1/M=10.05M , yang merupakan nilai P penerimaan disesuaikan untuk M tes sepenuhnya independen.TWER0.05M

Masalah yang kita hadapi sekarang, seperti halnya Benjamini dan Hochberg, adalah bahwa tidak semua tes sepenuhnya independen. Dengan demikian, koreksi Bonferroni, meskipun kuat dan fleksibel, adalah koreksi berlebihan . Pertimbangkan kasus dalam genetika di mana dua gen dihubungkan dalam kasus yang disebut disekuilibrium keterkaitan; yaitu, ketika satu gen memiliki mutasi, yang lain lebih mungkin diekspresikan. Ini jelas bukan tes independen, meskipun dalam koreksi bonferroni mereka dianggap . Di sinilah kita mulai melihat bahwa membagi nilai P dengan M menciptakan ambang batas yang secara artifisial rendah karena diasumsikan tes independen yang benar-benar saling memengaruhi, sehingga menciptakan M yang terlalu besar untuk situasi kita yang sebenarnya, di mana segala sesuatunya terjadi. tidak mandiri.

Prosedur yang disarankan oleh Benjamini dan Hochberg, dan ditambah oleh Yekutieli (dan banyak lainnya) lebih liberal daripada Bonferroni, dan sebenarnya koreksi Bonferroni hanya digunakan dalam studi yang sangat besar sekarang. Ini karena, dalam FDR, kami mengasumsikan beberapa saling ketergantungan pada bagian dari pengujian dan dengan demikian M yang terlalu besar dan tidak realistis dan menyingkirkan hasil yang kami, pada kenyataannya, pedulikan. Oleh karena itu dalam kasus 1000 tes yang tidak independen, M yang sebenarnya tidak akan 1000, tetapi sesuatu yang lebih kecil karena ketergantungan. Jadi ketika kita membagi 0,05 dengan 1000, ambangnya terlalu ketat dan menghindari beberapa tes yang mungkin menarik.

Saya tidak yakin apakah Anda peduli tentang mekanisme di balik kendali untuk ketergantungan, meskipun jika Anda melakukannya, saya telah menautkan kertas Yekutieli untuk referensi Anda. Saya juga akan melampirkan beberapa hal lain untuk informasi dan rasa ingin tahu Anda.

Semoga ini bisa membantu dalam beberapa hal, jika saya salah mengartikan sesuatu, tolong beri tahu saya.

~ ~ ~

Referensi

Makalah Yekutieli tentang dependensi positif - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(lihat 1.3 - Masalahnya.)

Penjelasan tentang Bonferroni dan hal-hal menarik lainnya - Ulasan Nature Genetics. Kekuatan Statistik dan pengujian signifikansi dalam studi genetik skala besar - Pak C Sham dan Shaun M Purcell

(lihat kotak 3.)

http://en.wikipedia.org/wiki/Familywise_error_rate

EDIT:

Dalam jawaban saya sebelumnya, saya tidak secara langsung mendefinisikan ketergantungan positif, yang diminta. Dalam makalah Yekutieli, bagian 2.2berjudul Ketergantungan positif, dan saya menyarankan ini karena sangat rinci. Namun, saya yakin kita bisa membuatnya sedikit lebih ringkas.

I0I0

PRDS

XI0XI0Xsaya0xX

P

Singkatnya, sifat ketergantungan positif adalah benar-benar milik ketergantungan regresi positif dari seluruh rangkaian statistik uji kami pada set statistik uji nol sejati kami, dan kami mengendalikan FDR 0,05; dengan demikian ketika nilai-nilai P naik dari bawah ke atas (prosedur langkah ke atas), mereka meningkatkan probabilitas menjadi bagian dari set nol.

Jawaban saya sebelumnya dalam komentar tentang matriks kovarians tidak salah, hanya sedikit kabur. Saya harap ini sedikit membantu.


6
Terima kasih. Anda memberikan gambaran yang jelas tentang mengendalikan tingkat kesalahan bijaksana keluarga (Bonferroni dll.) Vs mengendalikan FDR, tapi saya masih tidak mengerti apa artinya "ketergantungan positif". Pertimbangkan bahwa saya memiliki nilai 1000 P, menguji ekspresi 1000 gen berbeda yang membandingkan orang dengan dan tanpa penyakit. Saya menggunakan metode BH untuk memutuskan perbandingan mana yang merupakan "penemuan". Apa arti "ketergantungan positif" dalam konteks ini?
Harvey Motulsky

9
Catatan kecil tapi penting: Bonferroni sama sekali tidak berasumsi tentang kemerdekaan. Bahkan, itu akan mencakup dengan benar dalam kasus yang sama-sama eksklusif, yang, dengan cara, adalah sejauh dari independen yang bisa Anda dapatkan. Ada adalah prosedur koreksi (sidak) yang tidak menganggap kemerdekaan dan akan lebih kuat mengendalikan FWER di bawah asumsi tersebut. Beberapa aspek lain dari jawaban ini bisa menggunakan sentuhan ringan juga.
kardinal

2
@ Chris saya masih tidak mengerti. "Matriks kovarian antar elemen"? Saya mulai dengan daftar nilai P, dan ingin memutuskan mana yang cukup rendah untuk disebut "penemuan" yang layak ditindaklanjuti (dengan FDR dikendalikan). Apa saja elemen dari matriks kovarians? Katakanlah setiap nilai P membandingkan ekspresi gen tertentu antar kelompok, dan ada banyak gen semacam itu. Untuk setiap gen, pada tes membandingkan kelompok yang menghasilkan nilai P. Apa artinya, dalam situasi ini, untuk "unsur-unsur berubah bersama-sama" atau memiliki "korelasi positif di antara mereka"?
Harvey Motulsky

2
@ ChrisC Terima kasih. Itu menjadi lebih jelas, tetapi saya masih tidak benar-benar memahami apa arti asumsi ini. Inti dari mengetahui tentang asumsi di balik metode ini adalah untuk mengetahui kapan Anda mungkin akan melanggarnya. Jadi akan membantu untuk membuat daftar beberapa skenario di mana asumsi itu tidak benar. Kapan nilai P yang lebih rendah tidak dikaitkan dengan probabilitas yang lebih tinggi dari hipotesis nol menjadi salah?
Harvey Motulsky

1
Ini tidak menjawab pertanyaan.
Alexis

10

Saya menemukan pra-cetak ini membantu dalam memahami artinya. Harus dikatakan bahwa saya menawarkan jawaban ini bukan sebagai ahli dalam topik, tetapi sebagai upaya pemahaman untuk diperiksa dan divalidasi oleh komunitas.

Terima kasih kepada Amoeba untuk pengamatan yang sangat membantu tentang perbedaan antara PRD dan PRDS, lihat komentar

halChalC

  1. qC
  2. rqrqrsaya<qsayasaya
  3. rC

C

halhal1...haln<B1...BnhalCB1...Bn

halsayahalsayahalsayahal1...halnhal1...halnhalsaya

hal1...haln

halnhaln<BBhaln<Bhaln<BB

Diedit untuk menambahkan:

Berikut adalah contoh diduga dari sistem yang bukan PRDS (kode R di bawah). Logikanya adalah bahwa ketika sampel a dan b sangat mirip, kemungkinan besar produk mereka akan atipikal. Saya menduga bahwa efek ini (dan bukan ketidak-seragaman nilai-p di bawah nol untuk (a*b), (c*d)perbandingan) mendorong korelasi negatif dalam nilai-p, tetapi saya tidak bisa memastikan. Efek yang sama muncul jika kita melakukan uji-t untuk perbandingan kedua (daripada Wilcoxon), tetapi distribusi nilai-p masih seragam, mungkin karena pelanggaran asumsi normalitas.

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)

Maaf, tapi saya tidak benar-benar mengikuti ini.
Harvey Motulsky

Apakah paragraf terakhir yang baru benar-benar menghapusnya?
Jacob Socolar

@ Amoeba, ya, saya pikir Anda benar. Makalah Yekutieli yang dihubungkan oleh poster sebelumnya adalah perawatan PRDS. Sejauh yang saya tahu, PRD adalah properti yang sama, tetapi di semua statistik uji (atau nilai-p), bukan hanya subset yang sesuai dengan nol sejati.
Jacob Socolar

1
Ya, Anda benar sekali. Editing sekarang.
Jacob Socolar

1
Contoh menarik, tetapi efeknya super-lemah: Saya mendapatkan koefisien korelasi (antara ab dan abcd) sekitar -0,03 ... Tapi saya tidak mengerti: mengapa Anda mengatakan bahwa "ketika sampel a dan b sangat mirip , lebih mungkin produk mereka tidak khas "?
Amoeba berkata Reinstate Monica

4

Dalam makalah mereka , Benjamini dan Yekutieli memberikan beberapa contoh tentang bagaimana ketergantungan regresi positif (PRD) berbeda dari hanya dikaitkan secara positif. Prosedur kontrol FDR bergantung pada bentuk PRD yang lebih lemah yang mereka sebut PRDS (yaitu PRD pada masing-masing dari subset variabel).

Ketergantungan positif pada awalnya diusulkan dalam pengaturan bivariat oleh Lehmann , tetapi versi multivariat dari konsep ini, yang dikenal sebagai ketergantungan regresi positif adalah apa yang relevan dengan pengujian berganda.

Berikut adalah kutipan yang relevan dari hal.6

X(X1,X2)Xh(X1)X2h(X1)

...

2

Ketergantungan positif dalam hal ini berarti bahwa serangkaian tes berkorelasi positif. Idenya kemudian adalah bahwa jika variabel dalam set tes yang Anda miliki untuk nilai-P berkorelasi positif maka masing-masing variabel tidak independen .

Jika Anda mengingat kembali tentang koreksi nilai-p Bonferroni, misalnya, Anda dapat menjamin bahwa tingkat kesalahan tipe 1 kurang dari 10% dibandingkan dengan 100 tes independen secara statistik dengan menetapkan ambang signifikansi Anda menjadi 0,1 / 100 = 0,001. Tetapi, bagaimana jika masing-masing dari 100 tes tersebut berkorelasi dalam beberapa cara? Maka Anda belum benar-benar melakukan 100 tes terpisah.

Dalam FDR, idenya sedikit berbeda dari koreksi Bonferroni. Idenya adalah untuk menjamin bahwa hanya persen tertentu (katakanlah 10%) dari hal-hal yang Anda nyatakan signifikan secara salah dinyatakan signifikan. Jika Anda memiliki penanda berkorelasi (ketergantungan positif) dalam dataset Anda, nilai FDR dipilih berdasarkan jumlah total tes yang Anda lakukan (tetapi jumlah sebenarnya dari tes independen statistik lebih kecil). Dengan cara ini, lebih aman untuk menyimpulkan bahwa tingkat penemuan palsu secara keliru menyatakan signifikan 10% atau kurang dari tes di set nilai-P Anda.

Silakan lihat bab buku ini untuk diskusi tentang ketergantungan positif.


2
Anda menjelaskan FDR vs Bonferroni, tetapi tidak mendefinisikan "ketergantungan positif" tetapi sebaliknya hanya mengubah kembali menjadi "berkorelasi positif" tetapi saya tidak mengerti. Pertimbangkan bahwa saya memiliki nilai 1000 P, menguji ekspresi 1000 gen berbeda yang membandingkan orang dengan dan tanpa penyakit. Saya menggunakan metode BH untuk memutuskan perbandingan mana yang merupakan "penemuan". Apa arti "ketergantungan positif" dalam konteks ini?
Harvey Motulsky

5
Jawaban ini jelas salah. Ketergantungan Regresi Positif dan terkait positif berbeda satu sama lain. Makalah Benjamini Yekutieli menjelaskan ini dan memberikan referensi juga. "Namun demikian, PRDS dan asosiasi positif tidak menyiratkan satu sama lain, dan perbedaannya adalah penting. Misalnya, distribusi normal multivariat berhubungan positif jika semua korelasi nonnegatif. Tidak semua korelasi perlu nonnegatif untuk dimiliki oleh properti PRDS ( lihat Bagian 3.1, Kasus 1 di bawah). " Lihat hal. 6 kertas.
user3303
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.