Teknik yang Anda gambarkan disebut imputasi dengan regresi berurutan atau imputasi ganda oleh persamaan dirantai. Teknik ini dipelopori oleh Raghunathan (2001) dan diimplementasikan dalam paket R yang berfungsi baik disebut mice
(van Buuren, 2012).
Sebuah makalah oleh Schafer dan Graham (2002) menjelaskan dengan baik mengapa imputasi berarti dan penghapusan listwise (apa yang Anda sebut pengecualian jalur) biasanya bukan alternatif yang baik untuk teknik yang disebutkan di atas. Pada dasarnya rata-rata imputasi tidak bersyarat dan dengan demikian dapat membiaskan distribusi yang diperhitungkan terhadap rata-rata yang diamati. Ini juga akan mengecilkan varians, di antara dampak lain yang tidak diinginkan pada distribusi yang diperhitungkan. Selain itu, penghapusan listwise memang hanya akan berfungsi jika data hilang sepenuhnya secara acak, seperti oleh flip koin. Juga akan meningkatkan kesalahan pengambilan sampel, karena ukuran sampel berkurang.
Para penulis yang dikutip di atas biasanya merekomendasikan dimulai dengan variabel yang menampilkan nilai yang paling sedikit hilang. Juga, teknik ini biasanya diterapkan dengan cara Bayesian (yaitu perpanjangan saran Anda). Variabel dikunjungi lebih sering dalam prosedur imputasi, tidak hanya sekali. Secara khusus, setiap variabel diselesaikan dengan menarik dari distribusi prediktif posterior kondisionalnya, dimulai dengan variabel yang menampilkan nilai yang paling sedikit hilang. Setelah semua variabel dalam set data telah selesai, algoritma kembali dimulai pada variabel pertama dan kemudian mengulangi sampai konvergensi. Para penulis telah menunjukkan bahwa algoritma ini adalah Gibbs, sehingga biasanya konvergen ke distribusi multivariat yang benar dari variabel.
Biasanya, karena ada beberapa asumsi yang tidak dapat diuji yang terlibat, khususnya yang hilang pada data acak (yaitu apakah data diamati atau tidak tergantung pada data yang diamati saja, dan bukan pada nilai yang tidak dilindungi). Juga prosedur dapat sebagian tidak kompatibel, itulah sebabnya mereka disebut PIGS (sebagian Gibbs sampler tidak kompatibel).
Dalam praktiknya, imputasi berganda Bayesian masih merupakan cara yang baik untuk menangani masalah data yang hilang non-monoton multivariat. Juga, ekstensi non-parametrik seperti pencocokan rata-rata prediktif membantu mengendurkan asumsi pemodelan regresi.
Raghunathan, TE, Lepkowski, J., van Hoewyk, J., & Solenberger, P. (2001). Teknik multivariat untuk mengalikan nilai yang hilang dengan menggunakan serangkaian model regresi. Metodologi Survei, 27 (1), 85–95.
Schafer, JL, & Graham, JW (2002). Data tidak ada: Pandangan kami tentang keadaan terkini. Metode Psikologis, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Imputasi Fleksibel atas Data yang Hilang. Boca Raton: CRC Press.