Saya belajar dalam statistik dasar bahwa, dengan model linear umum, agar kesimpulan valid, pengamatan harus independen. Ketika pengelompokan terjadi, independensi mungkin tidak lagi mengarah pada inferensi yang tidak valid kecuali hal ini diperhitungkan. Salah satu cara untuk menjelaskan pengelompokan tersebut adalah dengan menggunakan model campuran. Saya ingin mencari contoh dataset, disimulasikan atau tidak, yang menunjukkan ini dengan jelas. Saya mencoba menggunakan salah satu dataset sampel di situs UCLA untuk menganalisis data berkerumun
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Kecuali saya melewatkan sesuatu, hasil ini cukup mirip sehingga saya tidak akan berpikir output dari lm()
tidak valid. Saya telah melihat beberapa contoh lain (misalnya 5.2 dari Pusat Universitas Bristol untuk Pemodelan Multilevel ) dan menemukan kesalahan standar juga tidak terlalu berbeda (saya tidak tertarik pada efek acak sendiri dari model campuran, tetapi perlu dicatat bahwa ICC dari output model campuran adalah 0,42).
Jadi, pertanyaan saya adalah 1) di bawah kondisi apa kesalahan standar akan sangat berbeda ketika clustering terjadi, dan 2) dapatkah seseorang memberikan contoh dataset seperti itu (disimulasikan atau tidak).