Bagaimana cara menggabungkan beberapa dataset imputed?


8

Saya memerlukan satu set data imputed (misalnya untuk membuat dummy grup negara dari data pendapatan per kapita negara imputed). R menawarkan paket paket untuk membuat beberapa data imputasi (misalnya Amelia) dan menggabungkan hasil dari beberapa dataset (seperti dalam MItools). Kekhawatiran saya adalah jika saya dapat rata-rata semua data yang dimasukkan untuk mendapatkan satu dataset. Jika demikian, bagaimana saya bisa melakukannya di R?


5
Rata-rata data buruk karena mengembang korelasi. Pertanyaan sebenarnya adalah mengapa Anda pikir Anda memerlukan satu set data yang diperhitungkan. Segala sesuatu yang dapat Anda lakukan dengan set data tunggal, dapat Anda lakukan pada set data multiply-imputed.
Stef van Buuren

@Stef: Apakah ini juga masalahnya jika kita ingin menghitung efek marginal dalam kasus model seleksi seperti model Heckit ?. Saya dapat menghitung efek marginal pada setiap data yang dimasukkan; tetapi pertanyaannya adalah apakah teori memiliki sesuatu untuk dikatakan tentang bagaimana menggabungkan ini. Terima kasih.
Metrik

1
Hanya kolam! Tidak ada teori yang memungkinkan kita melakukan ini. Tetapi tidak ada teori yang melarang ini juga.
Stef van Buuren

@Stef, di mice :: pool, ditentukan bahwa objek harus with.mids () atau as.mira (). Dapatkah model pembelajaran mesin digunakan sebagai pengganti metode regresi?
KarthikS

Jawaban:


5

Anda tidak dapat meratakan data. Karena variabel akan sama di seluruh data imputasi, Anda harus menambahkan setiap data imputasi. Misalnya, jika Anda memiliki 6 variabel dengan 1000 pengamatan dan frekuensi imputasi Anda adalah 5, maka Anda akan memiliki data akhir 6 variabel dengan 5000 pengamatan. Anda menggunakan rbindfungsi untuk menambahkan data dalam R. Misalnya, jika Anda memiliki lima data imputasi (dengan asumsi bahwa Anda sudah memiliki data ini di tangan), data akhir Anda akan diperoleh sebagai

finaldata <- rbind(data1,data2,data3,data4,data5)

Untuk detailnya, lihat di sini.

Setelah imputasi:

Koefisien regresi dari setiap data yang dimasukkan biasanya akan berbeda; sehingga koefisien diperoleh sebagai rata-rata koefisien dari semua data yang dimasukkan. Tapi, ada aturan tambahan untuk kesalahan standar. Lihat di sini untuk detailnya.


4
Pernyataan finaldata <- complete(data, "long")dalam [tikus] [1] melakukan hal yang sama. Ini juga dapat menghasilkan bentuk lain, misalnya matriks luas atau matriks berulang. [1]: cran.r-project.org/web/packages/mice/index.html "mice"
Stef van Buuren

@Stef: Terima kasih. Saya belum menggunakannya mice. Saya ingin tahu apakah miceanalisis dilakukan ketika kami hanya memiliki beberapa data yang diperhitungkan (tetapi bukan data asli) dari survei.
Metrik

1
Ya, Anda bisa, tetapi Anda perlu mengubah data yang dilipatgandakan menjadi objek mid untuk menggunakan fungsi pasca-imputasi tikus standar untuk analisis, diagnostik, dan pengumpulan ulang yang berulang. Versi mouse berikutnya (2.18) akan menyertakan fungsi as.mids yang melakukan ini, tetapi membutuhkan data asli untuk hadir. Itu tidak akan (belum) menangani kasus di mana kita tidak tahu di mana data yang hilang.
Stef van Buuren

Terima kasih. Jadi, masih saya tidak bisa menggunakan, misalnya, di mana saya hanya memiliki beberapa data yang ditetapkan ditetapkan seperti dalam Survei Keuangan konsumen .
Metrik

3
Jika Anda tidak tahu di mana data yang hilang, Anda harus menghitung ulang dari data yang dimasukkan. Ini secara keliru akan mengklasifikasikan poin sebagaimana diamati jika, secara kebetulan, semua imputasi untuk sel itu identik di set data m. Sebagai konsekuensinya, diagnostik dapat secara keliru melabeli titik-titik yang diduga sebagai titik yang diamati (dalam terminologi tikus: beberapa titik merah salah diplot sebagai titik biru). Namun, ini tidak mempengaruhi validitas kesimpulan statistik. Jadi, dengan usaha ekstra, Anda bisa.
Stef van Buuren

-1

Model imputasi berganda untuk data yang hilang jarang digunakan dalam praktik karena studi simulasi menunjukkan bahwa kemungkinan parameter mendasar yang sebenarnya berada dalam interval cover tidak selalu digambarkan secara akurat. Saya akan sangat merekomendasikan pengujian proses berdasarkan data yang disimulasikan (dengan parameter yang dikenal tepat), berdasarkan data nyata di bidang investigasi. Referensi studi simulasi https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&MNFMTFP&G=TFMJPIDA&hl=id = d2VORWbqTNygdM6Z51TZEg

Saya menduga mempekerjakan mengatakan lima model sederhana / naif untuk data yang hilang mungkin lebih baik dalam menghasilkan lebih sedikit bias dan mencakup interval yang secara akurat menyertakan parameter mendasar yang sebenarnya. Daripada mengumpulkan perkiraan parmeter, seseorang dapat melakukan lebih baik dengan menggunakan teknik Bayesian (lihat bekerja dengan model imputasi dalam cahaya ini di https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).

Ya, tidak banyak dukungan dering dari model imputasi data yang hilang standar dan mengutip sebuah sumber, misalnya, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Kami menjelaskan beberapa latar belakang dari analisis data yang hilang dan mengkritik metode ad hoc yang rentan terhadap masalah serius. Kami kemudian fokus pada beberapa imputasi, di mana kasus yang hilang pertama kali diisi oleh beberapa set nilai yang masuk akal untuk membuat beberapa set data yang lengkap,. .. "di mana saya akan memasukkan" (?) "setelah masuk akal sebagai model naif, untuk satu, umumnya tidak digambarkan sebagai menghasilkan prediksi yang masuk akal. Namun, model yang menggabungkan variabel dependen y, itu sendiri, sebagai variabel independen (disebut regresi kalibrasi) mungkin lebih baik memenuhi karakterisasi ini.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.