Sulit untuk mengadakan diskusi filosofis yang meyakinkan tentang hal-hal yang memiliki kemungkinan terjadi. Jadi saya akan menunjukkan beberapa contoh yang berhubungan dengan pertanyaan Anda.
Jika Anda memiliki dua sampel independen besar dari distribusi yang sama, maka kedua sampel masih akan memiliki beberapa variabilitas, statistik t sampel 2-sampel yang dikumpulkan akan dekat, tetapi tidak tepat 0, nilai-P akan didistribusikan sebagai
dan interval kepercayaan 95% akan sangat pendek dan terpusat sangat dekatUnif(0,1),0.
Contoh satu dataset dan uji t seperti:
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1591659 0.1036827
sample estimates:
mean of x mean of y
99.96403 99.99177
Berikut adalah hasil ringkasan dari 10.000 situasi seperti itu. Pertama, distribusi nilai-P.
set.seed(2019)
pv = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066 # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
curve(dunif(x), add=T, col="red", lwd=2, n=10001)
Selanjutnya statistik uji:
set.seed(2019) # same seed as above, so same 10^4 datasets
st = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332 # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)
Dan seterusnya untuk lebar CI.
set.seed(2019)
w.ci = replicate(10^4,
diff(t.test(rnorm(10^5,100,15),
rnorm(10^5,100,15),var.eq=T)$conf.int))
mean(w.ci)
[1] 0.2629603
Hampir tidak mungkin untuk mendapatkan P-value of unity yang melakukan pengujian tepat dengan data kontinu, di mana asumsi dipenuhi. Sedemikian rupa sehingga seorang ahli statistik yang bijak akan merenungkan apa yang salah dengan melihat nilai-P 1.
Misalnya, Anda dapat memberikan perangkat lunak dua sampel besar yang identik . Pemrograman akan melanjutkan seolah-olah ini adalah dua sampel independen , dan memberikan hasil yang aneh. Tetapi meskipun demikian CI tidak akan dari 0 lebar.
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = x1
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1316593 0.1316593
sample estimates:
mean of x mean of y
99.96403 99.96403