Metode skor-Z Stouffer: bagaimana jika kita menjumlahkan


22

Saya melakukan uji statistik independen dengan hipotesis nol yang sama, dan ingin menggabungkan hasilnya menjadi satuN nilai. Tampaknya ada dua metode yang "diterima": metodeFisher dan metode Stouffer.p

Pertanyaan saya adalah tentang metode Stouffer. Untuk setiap tes terpisah saya mendapatkan z-score . Di bawah hipotesis nol, masing-masing didistribusikan dengan distribusi normal standar, sehingga jumlah Σ z i mengikuti distribusi normal dengan varians N . Oleh karena itu metode Stouffer menyarankan untuk menghitung Σ z i / ziΣziN , yang seharusnya didistribusikan secara normal dengan varians unit, dan kemudian menggunakan ini sebagai skor-z bersama.Σzi/N

Ini masuk akal, tetapi di sini ada pendekatan lain yang saya buat dan itu juga masuk akal bagi saya. Karena masing-masing berasal dari distribusi normal standar, jumlah kuadrat S = Σ z 2 saya harus berasal dari distribusi chi-kuadrat dengan derajat kebebasan N. Jadi seseorang dapat menghitung S dan mengubahnya menjadi p- nilai menggunakan fungsi distribusi chi-kuadul kumulatif dengan N derajat kebebasan ( p = 1 - X N ( S ) , di mana X N adalah CDF).ziS=Σzi2NSpNp=1XN(S)XN

Namun, tidak ada yang bisa saya temukan dalam pendekatan ini. Apakah ini pernah digunakan? Apakah itu mempunyai nama? Apa yang akan menjadi keuntungan / kerugian dibandingkan dengan metode Stouffer? Atau adakah kesalahan dalam alasan saya?


Salah satu kekurangan yang menonjol adalah metode Stouffer dapat mendeteksi perubahan sistematis pada , yang biasanya diharapkan terjadi ketika satu alternatif secara konsisten benar, sedangkan metode chi-squared tampaknya memiliki daya yang lebih kecil untuk melakukannya. Simulasi cepat ( N = 100 , 10 4 iterasi) menunjukkan ini menjadi kasusnya; metode chi-squared sangat kurang kuat untuk mendeteksi alternatif sepihak. ziN=100104
whuber

2
Terimakasih! Bisakah Anda menggambarkan simulasi Anda lebih detail, saya penasaran. Di sisi lain, jika memiliki tanda-tanda yang berbeda tetapi nilai absolut yang besar, maka metode Stouffer dapat berakhir dengan keseluruhan z 0 , sedangkan metode saya akan melaporkan SANGAT signifikan p . Saya kira dalam beberapa kasus itu jauh lebih masuk akal (dan saya curiga dalam kasus saya memang demikian, tetapi saya tidak yakin). ziz0p
Amuba kata Reinstate Monica

1
Anda benar, itulah sebabnya saya tidak memposting komentar saya sebagai jawaban. Tapi situasi macam apa yang ada di mana alternatif sangat bervariasi dari nol di kedua arah, kecuali karena kebetulan saja?
whuber

Situasi yang saya pikirkan adalah sesuatu seperti yang ada dalam uji chi-square Pearson, di mana orang tertarik pada apakah distribusi empiris berbeda dari nol; kemudian penyimpangan di kedua arah penting. Tetapi setelah berpikir dua kali, saya kira intuisi Anda benar dan dalam kasus saya, penyimpangan yang mencurigakan semuanya dalam satu arah. Jika Anda memposting komentar Anda sebagai jawaban dan memberikan beberapa detail pada simulasi cepat Anda (saya sangat ingin tahu mengapa metode chi-squared ternyata kurang kuat!), Saya akan senang menerimanya.
Amuba mengatakan Reinstate Monica

Jumlah n skor Z memiliki distribusi dengan varian n? Mengapa varians kuadrat dari kesalahan standar rata-rata? Jumlah sebagaimana tersirat dalam judul memang memiliki varian N. Mungkin saya kehilangan sesuatu yang jelas? Z2
russellpierce

Jawaban:


17

Salah satu kelemahan yang muncul adalah metode Stouffer dapat mendeteksi pergeseran sistematis dalam , yang biasanya diharapkan terjadi ketika satu alternatif secara konsisten benar, sedangkan metode chi-squared tampaknya memiliki daya yang lebih kecil untuk melakukannya. Simulasi cepat menunjukkan hal ini; metode chi-squared kurang kuat untuk mendeteksi alternatif sepihak. Berikut adalah histogram nilai-p dengan kedua metode (merah = Stouffer, biru = chi-kuadrat) untuk 10 5 iterasi independen dengan N = 10 dan berbagai efek standar satu sisi μ mulai dari tidak ada ( μ = 0 ) hingga 0,6 SD ( μ =zi105N=10μμ=00.6 ).μ=0.6

Figure

μ


Kode r

Ini termasuk metode Fisher (dikomentari) untuk perbandingan.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })

Terima kasih sekali lagi, ini sangat bagus. Dan apa yang terjadi jika Anda membatalkan komentar metode Fisher? Saya curiga Anda sudah mencobanya. Apakah Stouffer secara konsisten menang? (Maaf karena tidak mencobanya sendiri, tapi saya tidak punya pengalaman dengan R dan tidak memilikinya.)
amoeba mengatakan Reinstate Monica

Pembaruan: mengenai perbandingan antara metode Fisher dan Stouffer, saya menemukan diskusi yang bagus di sini . Klaimnya adalah bahwa Stouffer lebih sensitif terhadap penyimpangan yang konsisten dari nol, sedangkan Fisher lebih sensitif terhadap penyimpangan tunggal (tetapi besar). Saya kira dalam simulasi Anda, Anda memiliki penyimpangan yang konsisten (μ sama saja Ntes), benar? Aku ingin tahu apa yang akan terjadi jika hanya 1 yang keluarNtes menunjukkan penyimpangan yang kuat.
Amoeba berkata Reinstate Monica

1
Anda dapat dengan mudah memodifikasi Rsimulasi untuk menguji ini. Ini akan menjadi cara yang baik untuk memperkenalkan diri Anda pada platform komputasi statistik ini. :-)
whuber

2
Saya menggunakan matlab untuk mereproduksi simulasi Anda. Kesimpulan: kapan semuazsayamenyimpang secara konsisten dari 0, kemudian Stouffer menang atas Fisher dengan margin kecil dan metode "saya" kalah tanpa harapan (seperti yang Anda tunjukkan). Ketika hanya satuzsayamenyimpang banyak dari 0, maka Fisher menang atas metode "saya" dengan margin kecil dan Stouffer kehilangan harapan.
Amoeba berkata Reinstate Monica

Diskusi hebat dan QA! Satu pertanyaan singkat: bagaimana jika seseorang membentuk masalah ini sebagai deteksi outlier / anomali dengan menghitung jarak Mahalanobis dan mengikuti sesuatu seperti ini ?
NULL

10

Salah satu cara umum untuk mendapatkan wawasan tentang statistik uji adalah untuk memperoleh asumsi yang mendasari (biasanya implisit) yang akan menyebabkan statistik uji menjadi yang paling kuat. Untuk kasus khusus ini, seorang siswa dan saya baru-baru ini melakukan ini: http://arxiv.org/abs/1111.1210v2 (versi revisi akan muncul dalam Annals of Applied Statistics).

Untuk meringkas secara singkat (dan konsisten dengan hasil simulasi dalam jawaban lain) Metode Stouffer akan paling kuat ketika efek yang mendasari "benar" semuanya sama; jumlah Z ^ 2 akan paling kuat ketika efek yang mendasarinya terdistribusi secara normal sekitar 0. Ini adalah sedikit penyederhanaan yang menghilangkan detail: lihat bagian 2.5 dalam preprint arxiv yang ditautkan di atas untuk detail lebih lanjut.


2
(+1) Entah bagaimana saya pikir saya menulisnya sejak lama, tetapi sepertinya saya tidak: terima kasih banyak telah mendaftar di sini secara khusus untuk menjawab pertanyaan saya! Saya menghargainya. Bagian 2.5 dalam makalah Anda memang sangat relevan.
Amoeba berkata Reinstate Monica

3

Sedikit: salah satu masalah dengan kedua pendekatan ini adalah hilangnya kekuasaan karena derajat kebebasan (N untuk stouffer; 2N untuk Fisher). Ada beberapa pendekatan meta-analitis yang lebih baik yang dikembangkan untuk ini, yang mungkin ingin Anda pertimbangkan (meta-analisis berbobot invers-varians, misalnya).

Jika Anda mencari bukti beberapa tes alternatif dalam suatu kelompok, Anda mungkin ingin melihat statistik kritik Donoho dan Jin yang lebih tinggi: https://projecteuclid.org/euclid.aos/1085408492


1

Untuk menjawab pertanyaan dan untuk pembaca lebih lanjut: apakah pernah digunakan ?, ada makalah lengkap oleh Cousins ​​(2008) tentang arXiv, yang mendaftar dan meninjau beberapa pendekatan alternatif. Yang diusulkan sepertinya tidak muncul.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.