Ini adalah bahasa yang membingungkan. Nilai yang dilaporkan bernama nilai-z. Tetapi dalam kasus ini mereka menggunakan estimasi kesalahan standar sebagai pengganti penyimpangan yang sebenarnya. Karena itu dalam kenyataannya mereka lebih dekat dengan nilai-t . Bandingkan tiga output berikut:
1) ringkasan.glm
2) uji-
3 3) uji-z
> set.seed(1)
> x = rbinom(100, 1, .7)
> coef1 <- summary(glm(x ~ 1, offset=rep(qlogis(0.7),length(x)), family = "binomial"))$coefficients
> coef2 <- summary(glm(x ~ 1, family = "binomial"))$coefficients
> coef1[4] # output from summary.glm
[1] 0.6626359
> 2*pt(-abs((qlogis(0.7)-coef2[1])/coef2[2]),99,ncp=0) # manual t-test
[1] 0.6635858
> 2*pnorm(-abs((qlogis(0.7)-coef2[1])/coef2[2]),0,1) # manual z-test
[1] 0.6626359
Mereka bukan nilai p yang tepat. Perhitungan tepat dari nilai-p menggunakan distribusi binomial akan bekerja lebih baik (dengan kekuatan komputasi saat ini, ini bukan masalah). Distribusi t, dengan asumsi distribusi kesalahan Gaussian, tidak tepat (terlalu tinggi p, melebihi tingkat alpha terjadi lebih jarang dalam "kenyataan"). Lihat perbandingan berikut:
# trying all 100 possible outcomes if the true value is p=0.7
px <- dbinom(0:100,100,0.7)
p_model = rep(0,101)
for (i in 0:100) {
xi = c(rep(1,i),rep(0,100-i))
model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
p_model[i+1] = 1-summary(model)$coefficients[4]
}
# plotting cumulative distribution of outcomes
outcomes <- p_model[order(p_model)]
cdf <- cumsum(px[order(p_model)])
plot(1-outcomes,1-cdf,
ylab="cumulative probability",
xlab= "calculated glm p-value",
xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
lines(c(0.00001,1),c(0.00001,1))
for (i in 1:100) {
lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
# lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
}
title("probability for rejection as function of set alpha level")
Kurva hitam mewakili kesetaraan. Kurva merah di bawahnya. Itu berarti bahwa untuk nilai-p hitung yang diberikan oleh fungsi ringkasan glm, kami menemukan situasi ini (atau perbedaan yang lebih besar) lebih jarang dalam kenyataan daripada yang ditunjukkan oleh nilai-p.
glm