Ini adalah pertanyaan lanjutan dari apa yang ditulis Frank Harrell di sini :
Dalam pengalaman saya, ukuran sampel yang diperlukan untuk distribusi t menjadi akurat seringkali lebih besar daripada ukuran sampel yang ada. Tes peringkat bertanda Wilcoxon sangat efisien seperti yang Anda katakan, dan itu kuat, jadi saya hampir selalu lebih suka daripada uji t
Jika saya memahaminya dengan benar - ketika membandingkan lokasi dua sampel yang tidak cocok, kami lebih suka menggunakan uji peringkat-jumlah Wilcoxon dibandingkan uji-t yang tidak berpasangan, jika ukuran sampel kami kecil.
Apakah ada situasi teoretis di mana kita lebih suka uji Wilcoxon rank-sum daripada uji-t yang tidak berpasangan, bahkan ukuran sampel dari dua kelompok kami relatif besar?
Motivasi saya untuk pertanyaan ini berasal dari pengamatan bahwa untuk uji-t sampel tunggal, menggunakannya untuk sampel yang tidak terlalu kecil dari distribusi miring akan menghasilkan kesalahan tipe I yang salah:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error