Beberapa imputasi cukup mudah ketika Anda memiliki model linear apriori yang ingin Anda perkirakan. Namun, hal-hal tampaknya menjadi sedikit lebih rumit ketika Anda benar-benar ingin melakukan pemilihan model (misalnya menemukan variabel prediktor "terbaik" dari variabel kandidat yang lebih besar - saya sedang berpikir secara khusus tentang LASSO dan polinomial pecahan menggunakan R).
Satu ide adalah mencocokkan model dalam data asli dengan nilai-nilai yang hilang, dan kemudian mengestimasi ulang model ini dalam dataset MI dan menggabungkan estimasi seperti biasanya. Namun, ini tampaknya bermasalah karena Anda mengharapkan bias (atau mengapa MI pada awalnya?), Yang dapat menyebabkan pemilihan model yang "salah" sejak awal.
Gagasan lain adalah melalui proses pemilihan model apa pun yang Anda gunakan dalam setiap dataset MI - tetapi bagaimana Anda kemudian menggabungkan hasil jika mereka memasukkan set variabel yang berbeda?
Satu pemikiran yang saya miliki adalah menumpuk satu set set data MI dan menganalisisnya sebagai satu set data besar yang kemudian akan Anda gunakan agar sesuai dengan model tunggal, "terbaik", dan memasukkan efek acak untuk menjelaskan fakta bahwa Anda menggunakan ukuran berulang untuk setiap pengamatan.
Apakah ini masuk akal? Atau mungkin sangat naif? Setiap petunjuk tentang masalah ini (pemilihan model dengan imputasi ganda) akan sangat dihargai.