TL; DR : Ukuran sampel minimum per kluster dalam model efek campuran adalah 1, asalkan jumlah kluster memadai, dan proporsi klaster tunggal tidak "terlalu tinggi"
Versi yang lebih panjang:
Secara umum, jumlah cluster lebih penting daripada jumlah pengamatan per cluster. Dengan 700, jelas Anda tidak punya masalah di sana.
Ukuran kluster kecil cukup umum, terutama dalam survei ilmu sosial yang mengikuti desain pengambilan sampel bertingkat, dan ada badan penelitian yang telah menyelidiki ukuran sampel level klaster.
Sementara meningkatkan ukuran cluster meningkatkan kekuatan statistik untuk memperkirakan efek acak (Austin & Leckie, 2018), ukuran cluster kecil tidak mengarah pada bias serius (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Dengan demikian, ukuran sampel minimum per cluster adalah 1.
Secara khusus, Bell, et al (2008) melakukan studi simulasi Monte Carlo dengan proporsi cluster tunggal (cluster yang hanya berisi satu pengamatan) mulai dari 0% hingga 70%, dan menemukan bahwa, asalkan jumlah cluster besar (~ 500) ukuran cluster kecil hampir tidak berdampak pada bias dan kontrol kesalahan Tipe 1.
Mereka juga melaporkan sangat sedikit masalah dengan konvergensi model dalam skenario pemodelan mereka.
Untuk skenario tertentu dalam OP, saya sarankan menjalankan model dengan 700 cluster pada contoh pertama. Kecuali jika ada masalah yang jelas dengan ini, saya akan segan untuk menggabungkan cluster. Saya menjalankan simulasi sederhana di R:
Di sini kita membuat dataset berkerumun dengan varians residual 1, efek tetap tunggal juga dari 1, 700 cluster, dimana 690 adalah lajang dan 10 hanya memiliki 2 pengamatan. Kami menjalankan simulasi 1000 kali dan mengamati histogram dari perkiraan efek acak tetap dan residual.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Seperti yang Anda lihat, efek tetap diperkirakan dengan sangat baik, sedangkan efek acak residu tampaknya sedikit bias ke bawah, tetapi tidak secara drastis:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
OP secara khusus menyebutkan estimasi efek acak level-cluster. Dalam simulasi di atas, efek acak dibuat hanya sebagai nilai masing-masing Subject
ID (diperkecil oleh faktor 100). Jelas ini tidak terdistribusi secara normal, yang merupakan asumsi model efek campuran linier, namun, kita dapat mengekstraksi (mode kondisional) efek level cluster dan memplotnya terhadap Subject
ID aktual :
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Histogram agak berbeda dari normal, tetapi ini karena cara kami mensimulasikan data. Masih ada hubungan yang masuk akal antara estimasi dan efek acak aktual.
Referensi:
Peter C. Austin & George Leckie (2018) Pengaruh jumlah cluster dan ukuran cluster pada kekuatan statistik dan tingkat kesalahan Tipe I ketika menguji komponen varians efek acak dalam model regresi linier dan logistik multilevel, Jurnal Statistik Komputasi dan Simulasi, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM, & Kromrey, JD (2008). Ukuran cluster dalam model bertingkat: dampak dari struktur data yang jarang pada estimasi titik dan interval dalam model dua tingkat . Prosiding JSM, Bagian tentang Metode Penelitian Survei, 1122-1129.
Clarke, P. (2008). Kapan pengelompokan tingkat grup dapat diabaikan? Model bertingkat versus model tingkat tunggal dengan data jarang . Jurnal Epidemiologi dan Kesehatan Masyarakat, 62 (8), 752-758.
Clarke, P., & Wheaton, B. (2007). Mengatasi kekurangan data dalam penelitian populasi kontekstual menggunakan analisis cluster untuk membuat lingkungan sintetis . Metode & Penelitian Sosiologis, 35 (3), 311-351.
Maas, CJ, & Hox, JJ (2005). Ukuran sampel yang memadai untuk pemodelan multilevel . Metodologi, 1 (3), 86-92.