Jawaban:
Don Rubin menulis makalah berpengaruh yang membuktikan bahwa tidak ada metode imputasi tunggal yang akan menghasilkan kesimpulan yang tidak bias (di mana "imputasi tunggal" berarti penghitungan hanya satu nilai untuk pengamatan yang hilang). Namun, dalam makalah yang sama ia menunjukkan bahwa dimungkinkan untuk membuat beberapa imputasi yang rata-rata merupakan estimasi yang tidak bias dari nilai yang hilang, dan yang kontribusinya terhadap peningkatan varians dalam analisis selanjutnya adalah perkiraan yang masuk akal dari ketidakpastian tambahan karena data ketiadaan.
Ini makalahnya:
Rubin, DB (1976). Inferensi dan data yang hilang. Biometrika , 63 (3): 581–592.
Dan ini merupakan pembaruan untuk itu: Rubin, DB (1996). Beberapa imputasi setelah 18+ tahun. Jurnal Asosiasi Statistik Amerika , 91 (434): 473–489.
Dan ini pengantar lembut untuk topik beberapa imputasi:
Schafer, JL (1999). Beberapa imputasi: primer. Metode Statistik dalam Penelitian Medis , 8: 3-15.
Ada berbagai paket perangkat lunak statistik yang mendukung beberapa imputasi (mis. Tikus dalam R, atau es di Stata, atau memang beberapa kemampuan imputasi bawaan Stata dalam versi terbaru).
Tidak pernah merupakan ide yang baik untuk melakukan ini, tetapi, jika ada sangat sedikit data yang hilang maka itu akan relatif sedikit merugikan, akan jauh lebih mudah untuk diterapkan dan, tergantung pada audiens akhir Anda, mungkin jauh lebih mudah untuk dijelaskan. Namun, audiens yang relatif canggih dapat keberatan dengan imputasi rata-rata tunggal.
Pertanyaan: "Metode imputasi apa yang merupakan pilihan terbaik" selalu tergantung pada dataset yang Anda lihat
Mengambil mean, secara umum adalah metode imputasi yang valid. Seperti yang telah disebutkan oleh seseorang, mudah dijelaskan untuk publikasi dan memiliki kelebihan dalam kecepatan komputasi.
Berarti sebagai metode imputasi adalah pilihan yang baik untuk seri yang berfluktuasi secara acak di sekitar nilai / level tertentu.
Untuk seri yang ditampilkan, berarti tidak terlihat sesuai. Karena juga hanya satu variabel, Anda tidak dapat menggunakan algoritma multivarian klasik seperti yang disediakan oleh mouse, Amelia, VIM.
Anda harus melihat terutama pada algoritma deret waktu. Satu sederhana, namun untuk contoh Anda seperti pendekatan yang bagus akan menjadi interpolasi linier.
library(imputeTS)
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)
Berikut ini adalah output untuk interpolasi linier:
[1] 1.00000 8.00000 12.00000 14.00000 15.66667 17.33333 19.00000
Ini mungkin hasil yang lebih baik daripada rata-rata.
Ada juga metode deret waktu yang lebih maju dalam paket imputeTS (oleh saya) atau satu dalam paket ramalan (oleh Rob Hyndman)