Saya memiliki satu set data dengan puluhan ribu pengamatan data biaya medis. Data ini sangat condong ke kanan dan memiliki banyak nol. Sepertinya ini untuk dua set orang (dalam hal ini dua pita usia dengan masing-masing> 3000 obs):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Jika saya melakukan uji-t Welch pada data ini saya mendapatkan hasil kembali:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Saya tahu tidak benar menggunakan uji-t pada data ini karena sangat tidak normal. Namun, jika saya menggunakan tes permutasi untuk perbedaan rata-rata, saya mendapatkan nilai-p hampir sama sepanjang waktu (dan semakin dekat dengan lebih banyak iterasi).
Menggunakan paket perm dalam R dan izin dengan Monte Carlo yang tepat
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Mengapa statistik uji permutasi keluar sangat dekat dengan nilai t.test? Jika saya mengambil log data maka saya mendapatkan nilai p-test t.test 0,28 dan sama dari tes permutasi. Saya pikir nilai uji-t akan lebih banyak sampah daripada yang saya dapatkan di sini. Ini berlaku untuk banyak set data lain yang saya miliki seperti ini dan saya bertanya-tanya mengapa uji-t tampaknya berfungsi padahal seharusnya tidak.
Kekhawatiran saya di sini adalah bahwa biaya perorangan tidak iid. Ada banyak sub-kelompok orang dengan distribusi biaya yang sangat berbeda (wanita vs pria, kondisi kronis, dll.) Yang tampaknya merusak persyaratan iid untuk teorema limit pusat, atau haruskah saya tidak khawatir tentang itu?