Jika kita ingin melakukan uji-t berpasangan, persyaratannya adalah (jika saya mengerti dengan benar) bahwa perbedaan rata - rata antara unit pengukuran yang cocok akan didistribusikan secara normal.
Dalam uji-t berpasangan, yaitu diartikulasikan (AFAIK) dalam permintaan bahwa perbedaan antara unit pengukuran yang cocok akan didistribusikan secara normal (bahkan jika distribusi masing-masing dari dua kelompok yang dibandingkan tidak normal).
Namun, dalam uji-t yang tidak berpasangan, kita tidak dapat berbicara tentang perbedaan antara unit yang cocok, jadi kita memerlukan pengamatan dari kedua kelompok menjadi normal sehingga perbedaan rata-rata mereka akan normal. Yang mengarahkan saya ke pertanyaan saya:
Apakah mungkin untuk dua distribusi non-normal sehingga perbedaan rata-rata mereka terdistribusi secara normal? (dan dengan demikian, memenuhi persyaratan yang kami butuhkan untuk melakukan uji-t yang tidak berpasangan pada mereka - lagi - sejauh yang saya mengerti).
Pembaruan: (terima kasih semua atas jawabannya) Saya melihat bahwa aturan umum yang kami cari adalah bahwa perbedaan rata-rata akan normal, yang tampaknya merupakan asumsi yang baik (di bawah n yang cukup besar) karena CLT. Ini luar biasa bagi saya (tidak mengejutkan, hanya luar biasa), seperti bagaimana ini bekerja untuk uji-t berpasangan, tetapi tidak akan bekerja dengan baik untuk uji-t sampel tunggal. Berikut ini beberapa kode R untuk diilustrasikan:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Terima kasih.