Kapan sebaiknya menggunakan rata-rata untuk imputasi?

9

Misalkan kita memiliki tes kumpulan data :

The . Menandakan hilang nilai-nilai. Kapan akan lebih baik menggunakan rata-rata dari nilai yang tidak hilang untuk menentukan nilai yang hilang daripada mengasumsikan bahwa data tersebut berasal dari distribusi normal?

missing-data

— thom
sumber

7

Don Rubin menulis makalah berpengaruh yang membuktikan bahwa tidak ada metode imputasi tunggal yang akan menghasilkan kesimpulan yang tidak bias (di mana "imputasi tunggal" berarti penghitungan hanya satu nilai untuk pengamatan yang hilang). Namun, dalam makalah yang sama ia menunjukkan bahwa dimungkinkan untuk membuat beberapa imputasi yang rata-rata merupakan estimasi yang tidak bias dari nilai yang hilang, dan yang kontribusinya terhadap peningkatan varians dalam analisis selanjutnya adalah perkiraan yang masuk akal dari ketidakpastian tambahan karena data ketiadaan.

Ini makalahnya:

Rubin, DB (1976). Inferensi dan data yang hilang. Biometrika , 63 (3): 581–592.

Dan ini merupakan pembaruan untuk itu: Rubin, DB (1996). Beberapa imputasi setelah 18+ tahun. Jurnal Asosiasi Statistik Amerika , 91 (434): 473–489.

Dan ini pengantar lembut untuk topik beberapa imputasi:

Schafer, JL (1999). Beberapa imputasi: primer. Metode Statistik dalam Penelitian Medis , 8: 3-15.

Ada berbagai paket perangkat lunak statistik yang mendukung beberapa imputasi (mis. Tikus dalam R, atau es di Stata, atau memang beberapa kemampuan imputasi bawaan Stata dalam versi terbaru).

— Alexis
sumber

2

Saya mengerti maksud Rubin adalah bahwa Anda bisa mendapatkan estimasi titik yang tidak bias menggunakan imputasi tunggal yang hati-hati, tetapi kesalahan standar akan salah. Namun, dalam banyak kasus berarti imputasi akan memiliki masalah lain, khususnya pola distorsi hubungan dengan variabel lain.

— Maarten Buis

@ MaartenBuis Terima kasih, saya telah mencoba memperbaikinya dalam revisi saya ... apakah itu berhasil?

— Alexis

Tidak juga. Titik imputasi (berganda) bukanlah untuk memperkirakan nilai yang hilang, yang dianggap hilang selamanya. Namun, Anda sering mengetahui hal-hal lain tentang individu / perusahaan / sapi tersebut, yaitu variabel lain yang diamati untuk pengamatan tersebut. Dengan imputasi (banyak) Anda ingin menggunakan data yang diamati dengan efektif, yang akan Anda buang jika Anda mengabaikan semua pengamatan dengan setidaknya satu nilai yang hilang.

— Maarten Buis

1

Saran: ... tidak ada metode imputasi tunggal yang akan menghasilkan inferensi yang tidak memihak. Ini berarti bahwa dengan imputasi tunggal kesalahan standar, nilai- dan interval kepercayaan akan hilang dalam arti bahwa mereka akan mengabaikan ketidakpastian yang ditimbulkan oleh imputasi.

p

$p$

— Maarten Buis

4

Tidak pernah merupakan ide yang baik untuk melakukan ini, tetapi, jika ada sangat sedikit data yang hilang maka itu akan relatif sedikit merugikan, akan jauh lebih mudah untuk diterapkan dan, tergantung pada audiens akhir Anda, mungkin jauh lebih mudah untuk dijelaskan. Namun, audiens yang relatif canggih dapat keberatan dengan imputasi rata-rata tunggal.

— Peter Flom
sumber

1

Seseorang juga dapat melakukan analisis sensitivitas dengan, katakanlah, mengelompokkan hasil berdasarkan rata-rata imputasi dengan hasil termasuk minimum masuk akal dan maksimum.

— Alexis

1

Pertanyaan: "Metode imputasi apa yang merupakan pilihan terbaik" selalu tergantung pada dataset yang Anda lihat

Mengambil mean, secara umum adalah metode imputasi yang valid. Seperti yang telah disebutkan oleh seseorang, mudah dijelaskan untuk publikasi dan memiliki kelebihan dalam kecepatan komputasi.

Berarti sebagai metode imputasi adalah pilihan yang baik untuk seri yang berfluktuasi secara acak di sekitar nilai / level tertentu.

Untuk seri yang ditampilkan, berarti tidak terlihat sesuai. Karena juga hanya satu variabel, Anda tidak dapat menggunakan algoritma multivarian klasik seperti yang disediakan oleh mouse, Amelia, VIM.

Anda harus melihat terutama pada algoritma deret waktu. Satu sederhana, namun untuk contoh Anda seperti pendekatan yang bagus akan menjadi interpolasi linier.

library(imputeTS)   
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)

Berikut ini adalah output untuk interpolasi linier:

[1]  1.00000  8.00000 12.00000 14.00000 15.66667 17.33333 19.00000

Ini mungkin hasil yang lebih baik daripada rata-rata.

Ada juga metode deret waktu yang lebih maju dalam paket imputeTS (oleh saya) atau satu dalam paket ramalan (oleh Rob Hyndman)

— stats0007
sumber