Data ini memiliki ekor pendek dibandingkan dengan distribusi lognormal, tidak seperti distribusi Gamma:
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
Namun demikian, karena data yang sangat kanan miring, kita bisa mengharapkan nilai-nilai terbesar untuk memainkan peran penting dalam mengestimasi mean dan selang kepercayaan nya. Oleh karena itu kita harus mengantisipasi bahwa estimator lognormal (LN) akan cenderung melebih - lebihkan rata-rata dan dua batas kepercayaan .
Mari kita periksa dan, untuk perbandingan, gunakan penduga yang biasa: yaitu mean sampel dan interval kepercayaan teori normal. Perhatikan bahwa penaksir biasa hanya mengandalkan perkiraan normalitas rata-rata sampel , bukan data, dan - dengan set data yang besar - dapat diharapkan berfungsi dengan baik. Untuk melakukan ini, kita perlu sedikit modifikasi ci
fungsi:
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
Berikut adalah fungsi paralel untuk perkiraan teori normal:
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
Diterapkan pada dataset simulasi ini, hasilnya adalah
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
Perkiraan teori normal dihasilkan dengan ci.u
melihat sedikit lebih dekat dengan rata-rata sebenarnya dari , tetapi sulit untuk mengatakan dari satu dataset prosedur mana yang cenderung bekerja lebih baik. Untuk mengetahuinya, mari kita simulasikan banyak kumpulan data:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
Kami tertarik untuk membandingkan output dengan rata-rata sebenarnya dari . Panel histogram mengungkapkan dalam hal itu:1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
Sekarang jelas bahwa prosedur lognormal cenderung melebih-lebihkan rata-rata dan batas kepercayaan, sedangkan prosedur biasa melakukan pekerjaan dengan baik. Kami dapat memperkirakan cakupan dari prosedur interval kepercayaan:
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
Perhitungan ini mengatakan:
Batas bawah LN akan gagal untuk menutupi rata-rata sebenarnya sekitar 22,3% dari waktu (bukan 2,5% yang dimaksudkan).
Batas bawah biasa akan gagal untuk menutupi rata-rata sebenarnya sekitar 2,3% dari waktu, mendekati 2,5% yang dimaksud.
Batas atas LN akan selalu melebihi rata-rata sebenarnya (bukannya jatuh di bawah 2,5% dari waktu sebagaimana dimaksud). Ini membuatnya menjadi dua sisi 100% - (22,3% + 0%) = 77,7% interval kepercayaan daripada interval kepercayaan 95%.
Batas atas biasa akan gagal untuk menutupi rata-rata sebenarnya sekitar 100 - 96,5 = 3,5% dari waktu. Ini sedikit lebih besar dari nilai yang dimaksudkan 2,5%. Batas yang biasa karena itu terdiri dari dua sisi 100% - (2,3% + 3,5%) = 94,2% interval kepercayaan daripada interval kepercayaan 95%.
Pengurangan cakupan nominal dari 95% menjadi 77,7% untuk interval lognormal mengerikan. Pengurangan menjadi 94,2% untuk interval biasa tidak buruk sama sekali dan dapat dikaitkan dengan efek kemiringan (dari data mentah, bukan dari logaritma mereka).
Kita harus menyimpulkan bahwa analisis lebih lanjut dari rata-rata tidak boleh mengasumsikan lognormalitas.
Hati-hati! Beberapa prosedur (seperti batas prediksi) akan lebih sensitif terhadap kemiringan daripada batas kepercayaan ini untuk mean, sehingga distribusi miringnya mungkin perlu diperhitungkan. Namun, tampaknya tidak mungkin bahwa prosedur lognormal akan berkinerja baik dengan data ini untuk praktis setiap analisis yang dimaksud.