Anda dengan benar menuliskan estimator gabungan:
U¯=1m∑i = 1mUsaya
Dimana Usaya mewakili hasil analitik dari saya-Data yang ditetapkan. Biasanya, hasil analitik memiliki beberapa distribusi mendekati normal dari mana kita menarik kesimpulan atau membuat batas kepercayaan. Ini terutama dilakukan dengan menggunakan nilai rata-rata (Usaya) dan kesalahan standarnya. T-tes, regresi linier, regresi logistik, dan pada dasarnya sebagian besar analisis dapat diringkas secara memadai dalam hal nilai tersebutUsaya dan kesalahan standarnya se (Usaya).
Aturan Rubin menggunakan hukum varians total untuk menuliskan varians sebagai jumlah dari varians antara dan di dalam imputasi:
var (U¯) = E[ var (U¯|Usaya) ] + var ( E[U¯|Usaya] )
Istilah pertama adalah dalam varian sehingga E[ var (U¯|Usaya) =1m∑mi = 1Vsaya dimana Vsaya adalah varian dari hasil analisis dari saya- dataset lengkap atau imputasi. Istilah terakhir adalah varian antara-imputasi:var ( E[U¯|Usaya] ) =M.+ 1M.- 1∑mi = 1(Usaya-U¯)2. Saya tidak pernah benar-benar memahami koreksi DF di sini, tetapi ini pada dasarnya adalah pendekatan yang diterima.
Bagaimanapun, karena jumlah imputasi yang disarankan adalah kecil (Rubin menyarankan sedikitnya 5), biasanya dimungkinkan untuk menghitung angka ini dengan memasangkan setiap analisis dengan tangan. Contoh dengan tangan terdaftar di bawah ini:
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
Memberikan hasil sebagai berikut:
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
Jadi varians dalam adalah rata-rata varians estimasi titik imputasi spesifik: 3,8 (rata-rata kolom kedua). Varians antara varians adalah 0,35 varians dari kolom pertama). Menggunakan koreksi DF kita mendapatkan varian 4.23. Ini setuju dengan pool
perintah yang diberikan dalam mice
paket.
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
yang menunjukkan SE = 2.057 untuk koefisien model, (Variance = SE ** 2 = 4.23).
Saya gagal melihat bagaimana meningkatkan jumlah dataset yang bermasalah menciptakan masalah tertentu. Jika Anda tidak dapat memberikan contoh kesalahan, saya tidak tahu bagaimana menjadi lebih bermanfaat. Tetapi kombinasi dengan tangan dipastikan untuk mengakomodasi berbagai strategi pemodelan.
Makalah ini membahas cara-cara lain bahwa hukum varians total dapat menurunkan estimasi varians dari estimasi gabungan. Secara khusus, penulis menunjukkan (dengan benar) bahwa asumsi yang diperlukan untuk Peraturan Rubin bukanlah normal dari perkiraan titik tetapi sesuatu yang disebut pengertian. Normalitas WRT, sebagian besar estimasi titik yang berasal dari model regresi memiliki konvergensi cepat di bawah teorema batas pusat, dan bootstrap dapat menunjukkan hal ini kepada Anda.