Jika p-value tepat 1 (1,0000000), apa yang seharusnya dibatasi oleh interval interval untuk mendukung hipotesis nol menjadi benar? [Tutup]


12

Ini murni pertanyaan hipotetis. Pernyataan yang sangat umum adalah bahwa tidak pernah benar, itu hanya masalah ukuran sampel.H0

Mari kita asumsikan bahwa sebenarnya tidak ada perbedaan terukur antara dua rata-rata ( ) yang diambil dari populasi yang berdistribusi normal (untuk dan diperkirakan ). Kami menganggap per grup dan kami menggunakan uji- . Ini berarti bahwa -value adalah menunjukkan bahwa sama sekali tidak ada perbedaan dari . Ini akan menunjukkan bahwa statistik uji adalah . Perbedaan rata-rata antar kelompok adalah . Apa yang akan menjadi batas interval kepercayaan untuk perbedaan rata-rata dalam kasus ini? Akankah merekaμ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0] ?

Poin utama dalam pertanyaan saya adalah kapan kami dapat benar-benar mengatakan bahwa benar, yaitu dalam kasus ini? Atau ketika dalam kerangka kerja yang sering kita dapat benar-benar mengatakan "tidak ada perbedaan" ketika membandingkan dua cara?H0μ1=μ2


1
Saya akan mengatakan bahwa ini sudah dijawab di sini stats.stackexchange.com/questions/275677/… , tapi saya tidak bersikeras untuk itu.
Tim

1
Saya mengalami masalah dengan cara mendapatkan dengan varians populasi positif. p=1
Dave


3
"Kami mengasumsikan N = 16 per kelompok dan kami menggunakan uji-t. Ini berarti bahwa nilai-p adalah 1,00000 yang menunjukkan bahwa sama sekali tidak ada perbedaan dari H0." Mengapa Anda berpendapat bahwa sesuatu (apa yang dimaksud dengan 'ini'?) Berarti bahwa nilai-p adalah 1. Nilai p yang biasanya terdistribusi seragam ketika H_0 benar, dan p = 1 terjadi hampir tidak pernah.
Sextus Empiricus

2
@ MartijnWeterings Benar-benar benar - hanya karena Anda mengambil sampel dua distribusi yang sebenarnya identik tidak berarti Anda akan mendapatkan nilai-p 1 ketika membandingkannya. Menurut definisi, 5% dari waktu Anda akan mendapatkan nilai p di bawah 0,05.
Nuclear Wang

Jawaban:


16

Interval kepercayaan untuk uji-t adalah dalam bentuk , di mana dan adalah sampel rata-rata, adalah nilai kritis pada diberikan , dan adalah kesalahan standar dari perbedaan rata-rata. Jika , maka . Jadi rumusnya hanya , dan batasannya hanya { ,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1x¯2=0±tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }.

Saya tidak yakin mengapa Anda berpikir batasnya adalahNilai kritis bukan nol dan kesalahan standar perbedaan rata-rata bukan nol.{0,0}.t


10

Menjadi sangat malas, menggunakan R untuk menyelesaikan masalah secara numerik daripada melakukan perhitungan dengan tangan:

Tetapkan fungsi yang akan memberikan nilai yang terdistribusi normal dengan rata-rata (hampir!) Tepat nol dan SD persis 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Jalankan uji-t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Berarti tidak persis nol karena ketidaktepatan floating-point.

Lebih langsung, CI adalah ; varians dari setiap rata-rata adalah 1/16, jadi varians yang dikumpulkan adalah 1/8.± sqrt(1/8)*qt(0.975,df=30)


8

CI dapat memiliki batas apa pun, tetapi berpusat tepat di sekitar nol

Untuk uji-T dua sampel (menguji perbedaan dalam rata-rata dua populasi), nilai p tepat satu sesuai dengan kasus di mana rata-rata sampel yang diamati sama persis. (Varians sampel dapat mengambil nilai apa pun.) Untuk melihat ini, perhatikan bahwa fungsi nilai-p untuk pengujian ini adalah:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Dengan demikian, pengaturan menghasilkan:x¯=y¯

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Sekarang, anggaplah Anda membentuk interval kepercayaan standar (perkiraan) menggunakan perkiraan Welch-Satterwaite. Dalam hal ini, dengan asumsi bahwa (untuk memberikan nilai p yang tepat dari salah satu) memberikan interval kepercayaan:x¯=y¯

CI(1α)=[0±sXnX+tDF,α/2sYnY],

di mana derajat kebebasan ditentukan oleh perkiraan Welch-Satterwaite. Bergantung pada varian sampel yang diamati dalam masalah, interval kepercayaan dapat berupa interval hingga yang terpusat di sekitar nol. Artinya, interval kepercayaan dapat memiliki batas, asalkan dipusatkan tepat di sekitar nol.DF


Tentu saja, jika data yang mendasarinya benar-benar berasal dari distribusi kontinu, peristiwa ini terjadi dengan probabilitas nol, tetapi mari kita asumsikan itu terjadi.


Pertanyaannya mengatakan "σ diperkirakan = 1".
Akumulasi

Kondisi itu tidak perlu untuk mendapatkan nilai-p satu, jadi saya telah menjatuhkannya.
Ben - Reinstate Monica

3

Sulit untuk mengadakan diskusi filosofis yang meyakinkan tentang hal-hal yang memiliki kemungkinan terjadi. Jadi saya akan menunjukkan beberapa contoh yang berhubungan dengan pertanyaan Anda.

Jika Anda memiliki dua sampel independen besar dari distribusi yang sama, maka kedua sampel masih akan memiliki beberapa variabilitas, statistik t sampel 2-sampel yang dikumpulkan akan dekat, tetapi tidak tepat 0, nilai-P akan didistribusikan sebagai dan interval kepercayaan 95% akan sangat pendek dan terpusat sangat dekatUnif(0,1),0.

Contoh satu dataset dan uji t seperti:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Berikut adalah hasil ringkasan dari 10.000 situasi seperti itu. Pertama, distribusi nilai-P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

masukkan deskripsi gambar di sini

Selanjutnya statistik uji:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

masukkan deskripsi gambar di sini

Dan seterusnya untuk lebar CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Hampir tidak mungkin untuk mendapatkan P-value of unity yang melakukan pengujian tepat dengan data kontinu, di mana asumsi dipenuhi. Sedemikian rupa sehingga seorang ahli statistik yang bijak akan merenungkan apa yang salah dengan melihat nilai-P 1.

Misalnya, Anda dapat memberikan perangkat lunak dua sampel besar yang identik . Pemrograman akan melanjutkan seolah-olah ini adalah dua sampel independen , dan memberikan hasil yang aneh. Tetapi meskipun demikian CI tidak akan dari 0 lebar.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Namun itu semua cukup adil, karena distribusi normal kontinu, probabilitas untuk setiap contoh spesifik adalah nol, tidak masalah apakah u1 = u2 atau u1-u2 = -0.977 atau apa pun. Saya tergoda untuk berkomentar di sepanjang baris "ini tidak akan pernah terjadi dan kemungkinan adalah sesuatu yang salah dalam kasus itu" juga, tetapi kemudian saya berpikir, tidak, masuk akal untuk mengatakan, menganggap ini telah terjadi, menerima bahwa ini telah probabilitas nol sebagai contoh spesifik apa pun .
Lewian

1
Ini adalah jawaban yang tepat untuk pertanyaan yang salah
David

1
@ David. Mungkin juga begitu. Jika Anda dapat menyatakan apa yang Anda yakini sebagai pertanyaan yang tepat dan menyarankan jawaban, itu mungkin bisa membantu di sekitar. Saya hanya berusaha untuk mengatasi beberapa dari apa yang saya pikir beberapa kesalahpahaman.
BruceET

OP menyatakan, "Pernyataan yang sangat umum adalah bahwa H0 tidak pernah benar." @ BruceET's jawaban menunjukkan MENGAPA H0 tidak pernah bisa diterima. Semakin dekat H0 datang untuk menjadi benar, P lebih seragam acak menjadi, bahwa sarana P antara (0.98,0.99) sama mungkin sebagai P antara (0,1, 0,2) ketika H0 adalah benar.
Ron Jensen - Kita semua Monica

1

Jawaban langsung (+1 ke Nuh) akan menjelaskan bahwa interval kepercayaan untuk perbedaan rata-rata mungkin masih panjang nol karena tergantung pada variasi yang diamati dalam sampel dengan cara yang berbeda dari nilai p.

Namun Anda mungkin masih bertanya-tanya mengapa seperti itu. Karena tidak aneh membayangkan bahwa nilai p yang tinggi juga berarti interval kepercayaan yang kecil. Lagi pula mereka berdua berhubungan dengan sesuatu yang dekat dengan konfirmasi hipotesis nol. Jadi mengapa pemikiran ini tidak benar?

Nilai p tinggi tidak sama dengan interval kepercayaan kecil.

  • Nilai-p adalah indikator seberapa ekstrim pengamatan tertentu (ekstrim diberi beberapa hipotesis) dengan menyatakan seberapa besar kemungkinannya untuk mengamati penyimpangan yang diberikan. Ini adalah ekspresi dari ukuran efek yang diamati dalam kaitannya dengan keakuratan percobaan (ukuran efek yang diamati besar mungkin tidak berarti banyak ketika percobaan sedemikian 'tidak akurat' sehingga pengamatan ini tidak ekstrem dari sudut pandang statistik / probabilistik pandang ). Ketika Anda mengamati p-nilai 1 maka ini (hanya) berarti bahwa Anda mengamati nol efek karena probabilitas untuk mengamati seperti nol hasil atau lebih besar sama dengan 1 (tapi ini tidak sama dengan yang ada adalah nol efek).

    Sidenote: Mengapa nilai-p? Nilai-p mengungkapkan ukuran efek yang diamati aktual dalam kaitannya dengan ukuran efek yang diharapkan (probabilitas). Ini relevan karena percobaan mungkin, dengan desain, menghasilkan pengamatan dari beberapa ukuran efek yang relevan dengan kebetulan murni karena fluktuasi umum dalam data / pengamatan. Meminta observasi / eksperimen memiliki nilai p rendah berarti eksperimen memiliki presisi tinggi - yaitu: ukuran efek yang diamati lebih jarang / kemungkinan terjadi karena kebetulan / fluktuasi (dan mungkin juga karena efek sebenarnya) .

    Sidenote: untuk variabel kontinu nilai p ini sama dengan 1 terjadi hampir tidak pernah karena ini adalah peristiwa yang memiliki ukuran nol (Misalnya untuk variabel terdistribusi normal Anda memiliki ). Tetapi untuk variabel diskrit atau variabel kontinu diskrit dapat menjadi kasus (setidaknya probabilitas adalah nol).XN(0,1)P(X=0)=0

  • Interval kepercayaan mungkin dilihat sebagai rentang nilai yang   akan berhasil dilakukan uji hipotesis tingkat (untuk nilai-p di atas ).αα

    Anda harus mencatat bahwa nilai-p tinggi bukan (necis) bukti / dukungan / apa pun untuk hipotesis nol. Nilai p yang tinggi hanya berarti bahwa pengamatan tidak luar biasa / ekstrim untuk hipotesis nol yang diberikan, tetapi ini mungkin juga menjadi kasus untuk hipotesis alternatif (yaitu hasilnya sesuai dengan kedua hipotesis, ya / tidak efek). Ini biasanya terjadi ketika data tidak membawa banyak informasi (mis. Noise tinggi atau sampel kecil).

Contoh: Bayangkan Anda memiliki sekantong koin yang Anda miliki koin yang adil dan tidak adil dan Anda ingin mengklasifikasikan koin tertentu dengan membalik 20 kali. (katakanlah koin adalah variabel bernoulli dengan untuk koin adil dan untuk koin tidak adil. Dalam hal ini, ketika Anda mengamati 10 kepala dan 10 ekor, maka Anda mungkin mengatakan p- nilainya sama dengan 1, tapi saya kira jelas bahwa koin yang tidak adil mungkin juga menciptakan hasil ini dan kita tidak boleh mengesampingkan kemungkinan bahwa koin itu tidak adil.p0.5pU(0,1)


1

Poin utama dalam pertanyaan saya adalah kapan kami dapat benar-benar mengatakan bahwa benar, yaitu dalam kasus ini?H0μ1=μ2

Tidak, karena "tidak adanya bukti bukanlah bukti ketidakhadiran." Probabilitas dapat dianggap sebagai perpanjangan logika , dengan ketidakpastian tambahan, jadi bayangkan sejenak bahwa alih-alih bilangan real pada interval satuan, tes hipotesis hanya akan mengembalikan nilai biner: 0 (salah) atau 1 (benar). Dalam kasus tersebut, aturan dasar logika berlaku, seperti dalam contoh berikut :

  • Jika hujan di luar, maka kemungkinan tanahnya basah.
  • Tanahnya basah.
  • Karena itu, hujan turun di luar.

Tanahnya bisa basah karena hujan. Atau bisa juga karena alat penyiram, seseorang membersihkan talang air, saluran air pecah, dll. Contoh lebih ekstrem dapat ditemukan di tautan di atas.

Tentang interval kepercayaan, jika sampel Anda besar, dan , maka interval kepercayaan untuk perbedaan akan menjadi sangat sempit, tetapi tidak nol. Seperti yang diperhatikan oleh orang lain, Anda bisa mengamati hal-hal seperti yang tepat dan nol, tetapi lebih karena keterbatasan presisi floating-point.μ1μ20

Bahkan jika Anda mengamati dan interval kepercayaan , Anda masih perlu diingat bahwa tes hanya memberi Anda jawaban perkiraan. Saat melakukan pengujian hipotesis, kami tidak hanya membuat asumsi bahwa benar, tetapi juga membuat sejumlah asumsi lain, seperti bahwa sampel independen dan berasal dari distribusi normal, yang tidak pernah menjadi kasus untuk data dunia nyata. Tes memberi Anda jawaban perkiraan , untuk pertanyaan yang salah, sehingga tidak bisa "membuktikan" hipotesis, itu hanya bisa mengatakan "di bawah asumsi yang tidak masuk akal, ini tidak mungkin" .p=1±0H0


0

Tidak ada yang menghentikan Anda dari menggunakan rumus t atau Gauss standar untuk menghitung interval kepercayaan - semua informasi yang diperlukan diberikan dalam pertanyaan Anda. p = 1 tidak berarti ada yang salah dengan itu. Perhatikan bahwa p = 1 tidak berarti Anda dapat yakin bahwa H0 benar. Variasi acak masih ada dan jika u0 = u1 dapat terjadi di bawah H0, itu juga dapat terjadi jika nilai sebenarnya u0 sedikit berbeda dari u1 yang benar, sehingga akan ada lebih banyak dalam interval kepercayaan daripada sekadar kesetaraan.


Saya melakukan beberapa pengeditan, saya harap ini lebih jelas sekarang.
arkiaamu

OK, saya menghapus referensi untuk apa yang tidak jelas di versi sebelumnya. Sementara itu pertanyaannya telah dijawab dengan benar oleh orang lain.
Lewian

Silakan gunakan notasi MathJax
David

0

Pernyataan yang sangat umum adalah bahwa H0 tidak pernah benar, itu hanya masalah ukuran sampel.

Tidak di antara orang yang tahu apa yang mereka bicarakan, dan berbicara dengan tepat. Pengujian hipotesis tradisional tidak pernah menyimpulkan bahwa nol itu benar, tapi apakah nol adalah benar atau tidak terpisah dari apakah nol tersebut disimpulkan untuk menjadi kenyataan.

Ini berarti p-value adalah 1,00000

Untuk tes dua sisi, ya.

menunjukkan bahwa sama sekali tidak ada perbedaan dari H0.

H0 adalah pernyataan tentang distribusi. Mode distribusi yang diberikan dalam adalah , jadi tidak ada perbedaan antara pengamatan dan mode distribusi, tetapi tidak cukup benar untuk mengatakan tidak ada perbedaan dari . Tidak ada hasil individu akan menjadi perbedaan, karena nilai apa pun bisa berasal dari distribusi. Setiap nilai-p kemungkinan sama. Mendapatkan nilai p tepat 0,01 sama seperti mendapatkan nilai p tepat 1 (terlepas dari masalah diskritisasi). Jika Anda memiliki banyak sampel independen, dan distribusinya tidak sesuai denganH00H0H 0H0 memprediksi, itu akan jauh lebih sah disebut "perbedaan" daripada hanya akan melihat sampel tunggal yang rata-rata tidak cocok dengan mode.

Apa yang akan menjadi batas interval kepercayaan 95% untuk perbedaan rata-rata dalam kasus ini?

Untuk perkiraan pertama, batas interval kepercayaan 95% adalah sekitar dua kali standar deviasi yang berlaku. Tidak ada diskontinuitas di nol. Jika Anda menemukan fungsi yang menemukan interval kepercayaan 95% untuk perbedaan dalam , Anda bisa menggunakan untuk menemukan interval kepercayaan untuk perbedaan rata-rata nol.f(ϵ)ϵlimϵ0f(ϵ)

Poin utama dalam pertanyaan saya adalah kapan kita dapat benar-benar mengatakan bahwa H0 benar, yaitu μ1 = μ2 dalam kasus ini?

Kita dapat mengatakan apa pun yang kita inginkan. Namun, mengatakan bahwa tes menunjukkan nol menjadi benar tidak konsisten dengan pengujian hipotesis tradisional, terlepas dari hasilnya. Dan melakukannya tidak beralasan dari sudut pandang pembuktian. Hipotesis alternatif, bahwa rerata tidak sama, mencakup semua kemungkinan perbedaan rerata. Hipotesis alternatif adalah "Perbedaan dalam mean adalah , atau , atau , atau , atau123.5.1, ... "Kita dapat menempatkan perbedaan kecil yang sewenang-wenang dalam rata-rata, dan itu akan konsisten dengan hipotesis alternatif. Dan dengan perbedaan kecil yang sewenang-wenang, probabilitas yang diberikan rata-rata mendekati arbitrase dengan probabilitas yang diberikan nol. Juga, hipotesis alternatif mencakup tidak hanya kemungkinan bahwa parameter distribusi, seperti rata-rata, berbeda, tetapi bahwa ada distribusi yang sama sekali berbeda. Misalnya, hipotesis alternatif mencakup "Dua sampel akan selalu memiliki perbedaan dalam cara bahwa ini adalah tepat 1 atau tepat 0, dengan probabilitas .5 untuk setiap ". Hasilnya lebih konsisten dengan itu maka mereka dengan nol.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.