Pertimbangkan satu set angka acak yang didistribusikan secara normal:
x <- rnorm(n=1000, mean=10)
Kami ingin mengetahui rata-rata dan kesalahan standar pada rata-rata sehingga kami melakukan hal berikut:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Bagus!
Namun, mari kita asumsikan kita tidak perlu tahu bahwa distribusi asli kita mengikuti distribusi normal. Kami melakukan log-transformasi data dan melakukan perhitungan kesalahan standar yang sama.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Keren, tapi sekarang kita perlu melakukan transformasi balik untuk mendapatkan jawaban kita dalam unit TIDAK mencatat unit.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Pertanyaan saya: Mengapa, untuk distribusi normal, apakah kesalahan standar berbeda tergantung pada apakah itu dihitung dari distribusi itu sendiri atau jika itu diubah, dihitung, dan ditransformasikan kembali? Catatan: cara keluar yang sama terlepas dari transformasi.
EDIT # 1: Pada akhirnya, saya tertarik untuk menghitung interval rata-rata dan kepercayaan diri untuk data yang tidak terdistribusi normal, jadi jika Anda dapat memberikan beberapa panduan tentang bagaimana menghitung 95% CI pada data yang ditransformasikan termasuk cara mengubah kembali ke unit asal mereka , Saya akan sangat menghargainya!
AKHIR EDIT # 1
EDIT # 2: Saya mencoba menggunakan fungsi kuantil untuk mendapatkan interval kepercayaan 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Jadi, itu menyatu pada jawaban yang sama, mana yang baik. Namun, menggunakan metode ini tidak memberikan interval yang sama persis menggunakan data tidak normal dengan ukuran sampel "kecil":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Metode mana yang akan dianggap "lebih benar". Saya berasumsi orang akan memilih estimasi yang paling konservatif?
Sebagai contoh, apakah Anda akan melaporkan hasil ini untuk data yang tidak normal (t) memiliki rata-rata 0,92 unit dengan interval kepercayaan 95% [0,211, 4,79]?
AKHIR EDIT # 2
Terima kasih atas waktunya!