Bagaimana membandingkan rata-rata dua sampel yang datanya sesuai dengan distribusi eksponensial


10

Saya memiliki dua sampel data, sampel awal, dan sampel perawatan.

Hipotesisnya adalah bahwa sampel perlakuan memiliki rata-rata yang lebih tinggi daripada sampel awal.

Kedua sampel berbentuk eksponensial. Karena datanya agak besar, saya hanya memiliki rata-rata dan jumlah elemen untuk setiap sampel pada saat saya akan menjalankan tes.

Bagaimana saya bisa menguji hipotesis itu? Saya menduga itu super mudah, dan saya telah menemukan beberapa referensi untuk menggunakan F-Test, tapi saya tidak yakin bagaimana parameternya dipetakan.


2
Mengapa Anda tidak memiliki datanya? Jika sampel benar-benar besar, tes non-parametrik seharusnya bekerja dengan baik, tetapi sepertinya Anda mencoba menjalankan tes dari statistik ringkasan. Apakah itu benar?
Mimshot

Apakah nilai dasar dan pengobatan dari pasien yang sama ditetapkan atau apakah kedua kelompok independen?
Michael M

1
@Mimshot, data mengalir, tetapi Anda benar bahwa saya mencoba menjalankan tes dari statistik ringkasan. Ini bekerja cukup baik dengan uji Z untuk data normal
Jonathan Dobbie

1
Dalam keadaan ini, perkiraan z-test mungkin adalah yang terbaik yang dapat Anda lakukan. Namun, saya akan lebih peduli tentang seberapa besar efek pengobatan yang sebenarnya, bukan tentang signifikansi statistik. Ingat, bahwa dengan sampel yang cukup besar, setiap efek kecil yang benar akan menyebabkan nilai p kecil.
Michael M

1
@january - walaupun, jika ukuran sampelnya cukup besar, oleh CLT mereka akan sangat dekat dengan terdistribusi normal. Di bawah hipotesis nol, varians akan sama (seperti artinya), jadi, dengan ukuran sampel yang cukup besar, uji-t harus bekerja dengan baik; itu tidak akan sebaik yang bisa Anda lakukan dengan semua data, tetapi masih akan baik-baik saja. , misalnya, akan cukup bagus. n1=n2=100
jbowman

Jawaban:


14

Anda dapat menguji persamaan parameter rata-rata terhadap alternatif yang parameter rata-rata tidak sama dengan uji rasio kemungkinan (uji LR). (Namun, jika parameter rata-rata berbeda dan distribusinya eksponensial, ini adalah pergeseran skala, bukan pergeseran lokasi.)

Untuk tes satu sisi (tetapi hanya asimtotik dalam kasus dua sisi), saya percaya bahwa uji LR setara dengan yang berikut (untuk menunjukkan bahwa ini sebenarnya sama dengan tes LR untuk ekor satu sisi. jika seseorang perlu menunjukkan statistik LR adalah monoton di ):x¯/y¯

Katakanlah kita parameterkan pengamatan ke- dalam eksponensial pertama sebagai memiliki pdf dan observasi ke- dalam sampel kedua memiliki pdf (di atas domain yang jelas untuk pengamatan dan parameter). (Untuk lebih jelasnya, kami bekerja dalam bentuk rata-rata bukan bentuk kurs di sini; ini tidak akan mempengaruhi hasil perhitungan.)i1/μxexp(xi/μx)j1/μyexp(yj/μy)

Karena distribusi adalah kasus khusus dari gamma, , distribusi jumlah , didistribusikan ; sama halnya dengan jumlah s, adalah .XiΓ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

Karena hubungan antara distribusi gamma dan distribusi chi-kuadrat, ternyata didistribusikan . Rasio dua chi-square pada derajat kebebasan mereka adalah F. Oleh karena itu rasio, .2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

Maka, di bawah hipotesis nol tentang kesetaraan sarana, , dan di bawah alternatif dua sisi, nilainya mungkin cenderung lebih kecil atau lebih besar daripada nilai dari nol distribusi, jadi Anda perlu tes dua sisi.x¯/y¯F2nx,2ny


Simulasi untuk memastikan bahwa kami tidak membuat kesalahan sederhana dalam aljabar:

Di sini saya mensimulasikan 1000 sampel ukuran 30 untuk dan 20 untuk dari distribusi eksponensial dengan rata-rata yang sama, dan menghitung statistik rasio sarana di atas.YXY

Di bawah ini adalah histogram dari distribusi yang dihasilkan serta kurva yang menunjukkan distribusi kami hitung di bawah nol:F

contoh simulasi distribusi statistik rasio di bawah nol


Contoh, dengan diskusi tentang perhitungan nilai-dua-ekor :

Untuk menggambarkan perhitungan, inilah dua sampel kecil dari distribusi eksponensial. Sampel-X memiliki 14 pengamatan dari populasi dengan rata-rata 10, sampel-Y memiliki 17 pengamatan dari populasi dengan rata-rata 15:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

Berarti sampel masing-masing adalah 12.082 dan 16.077. Rasio rata-rata adalah 0,7515

Area di sebelah kiri sangat mudah, karena berada di ekor bawah (calc in R):

 > pf(r,28,34) 
 [1] 0.2210767

Kami membutuhkan probabilitas untuk ekor lainnya. Jika distribusinya simetris dalam invers, akan mudah untuk melakukan ini.

Sebuah konvensi umum dengan rasio varian F-test (yang sama dua-tailed) hanya untuk menggandakan nilai-satu-tailed (efektif apa yang terjadi seperti di sini ; itu juga yang tampaknya dilakukan dalam R, misalnya ); dalam hal ini memberikan nilai-p 0,44.

Namun, jika Anda melakukannya dengan aturan penolakan formal, dengan meletakkan area di setiap ekor, Anda akan mendapatkan nilai kritis seperti dijelaskan di sini . Nilai-p kemudian nilai terbesar yang akan mengarah pada penolakan, yang setara dengan menambahkan nilai-satu ekor di atas ke nilai-satu-ekor di ekor lainnya untuk derajat kebebasan yang dipertukarkan. Dalam contoh di atas yang memberikan nilai p 0,43.αα/2α


Saya menduga ini hanya saya yang tebal, tetapi dari mana 0,7515 berasal?
Jonathan Dobbie

r = rata-rata (x) / rata-rata (y) = 0,7515 - yaitu, "Rasio rata-rata"
Glen_b -Reinstate Monica

Oke, luar biasa. Saya mendapat 0,67, tapi itu mungkin hanya karena kesalahan entri data.
Jonathan Dobbie

1
Saya telah membuat perbedaan antara rata-rata populasi dan sampel yang dihasilkan berarti lebih jelas
Glen_b -Reinstate Monica

(+1) Tapi meskipun itu singgung, saya tidak mengerti paragraf terakhir. Bagaimana menggandakan nilai p satu-ekor tidak setara dengan menemukan terbesar , dengan area di setiap ekor, yang akan mengarah pada penolakan? Mengapa Anda mengubah derajat kebebasan sama sekali? ααα2
Scortchi

3

Sebagai tambahan untuk jawaban @ Glen_b, rasio kemungkinannya adalah yang dapat Anda atur ulang menjadi mana . Ada satu minimum pada , sehingga uji-F memang merupakan uji rasio kemungkinan terhadap alternatif satu sisi terhadap hipotesis nol dari distribusi yang identik.

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
r= ˉ x
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=1r=x¯y¯r=1

Untuk melakukan uji rasio kemungkinan yang tepat untuk alternatif dua sisi Anda masih dapat menggunakan distribusi-F; Anda hanya perlu menemukan nilai lain dari rasio sampel berarti yang rasio kemungkinannya sama dengan rasio yang diamati , & kemudian . Untuk contoh ini , & , memberikan nilai p keseluruhan , (agak dekat dengan yang diperoleh dengan perkiraan chi-square ke distribusi dua kali rasio kemungkinan log, ).rELRrobsr E L R = 1.3272Pr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315

masukkan deskripsi gambar di sini

Tetapi menggandakan nilai-satu-ekor mungkin merupakan cara paling umum untuk mendapatkan nilai-dua-ekor: itu setara dengan menemukan nilai rasio sampel berarti yang probabilitas ekornya sama dengan , & kemudian menemukan . Dijelaskan seperti itu, mungkin kelihatannya menempatkan kereta di depan kuda dalam membiarkan probabilitas ekor menentukan ekstremeness dari statistik uji, tetapi dapat dibenarkan sebagai akibatnya dua tes satu-ekor (masing-masing LRT) dengan beberapa perbandingan koreksi— & orang biasanya tertarik untuk mengklaim bahwa atau bahwa Pr ( R > r E T P ) Pr ( R < r o b s ) Pr ( R > r E T P ) μ x > μ y μ x < μ y μ x > μ y μ x < μ yrETPPr(R>rETP)Pr(R<robs)Pr(R>rETP)μx>μyμx<μyμx>μy atau . Ini juga kurang rewel, & bahkan untuk ukuran sampel yang cukup kecil, memberikan banyak jawaban yang sama dengan LRT dua sisi.μx<μy

masukkan deskripsi gambar di sini

Kode R berikut:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.