Bagaimana saya bisa menyatukan sarana posterior dan interval yang kredibel setelah beberapa kali imputasi?


20

Saya telah menggunakan beberapa imputasi untuk mendapatkan sejumlah set data yang lengkap.

Saya telah menggunakan metode Bayesian pada masing-masing set data yang lengkap untuk mendapatkan distribusi posterior untuk parameter (efek acak).

Bagaimana saya bisa menggabungkan / menggabungkan hasil untuk parameter ini?


Lebih banyak konteks:

Model saya bersifat hierarkis dalam arti masing-masing siswa (satu pengamatan per murid) yang dikelompokkan di sekolah. Saya telah melakukan beberapa imputasi (menggunakan MICER) pada data saya di mana saya termasuk schoolsebagai salah satu prediktor untuk data yang hilang - untuk mencoba memasukkan hierarki data ke dalam imputasi.

Saya telah memasang model kemiringan acak sederhana untuk masing-masing set data lengkap (menggunakan MCMCglmmdalam R). Hasilnya adalah biner.

Saya telah menemukan bahwa kerapatan posterior dari varian lereng acak adalah "berperilaku baik" dalam arti bahwa mereka terlihat seperti ini: masukkan deskripsi gambar di sini

Bagaimana saya bisa menggabungkan / menyatukan sarana posterior dan interval yang kredibel dari setiap dataset yang diperhitungkan, untuk efek acak ini?


Pembaruan1 :

Dari apa yang saya pahami sejauh ini, saya bisa menerapkan aturan Rubin pada rata-rata posterior, untuk memberikan rata-rata posterior berganda - apakah ada masalah dengan melakukan ini? Tapi saya tidak tahu bagaimana saya bisa menggabungkan interval yang kredibel 95%. Juga, karena saya memiliki sampel kerapatan posterior aktual untuk setiap imputasi - dapatkah saya menggabungkannya?


Pembaruan2 :

Seperti saran per @ cyan dalam komentar, saya sangat menyukai gagasan untuk hanya menggabungkan sampel dari distribusi posterior yang diperoleh dari setiap dataset lengkap dari beberapa imputasi. Namun, saya ingin tahu alasan teoretis untuk melakukan ini.


Jika hilangnya datum tertentu tidak tergantung dari nilai hasil yang terkait, itu benar untuk hanya membuang semua sampel posterior dari set data yang berbeda bersama-sama dan mengambil interval rata-rata dan kredibel 95% dari sampel posterior gabungan.
Cyan

@Cyan apakah itu sama dengan mengatakan bahwa mekanisme menghilangnya adalah "hilang secara acak" atau "hilang sepenuhnya secara acak" tetapi tidak "hilang tidak secara acak" (asumsi yang biasa saya pelajari tentang melakukan MI)? Apakah Anda tahu referensi mana "melempar bersama" ini dibenarkan secara formal?
Joe King

Beberapa imputasi ADALAH prosedur Bayesian di jantungnya. Jika Anda menggunakan metode Bayesian untuk estimasi (MCMC dan semacamnya), Anda harus membuang simulasi data yang hilang sebagai langkah pengambilan sampel MCMC tambahan untuk model Bayesian sepenuhnya, dan tidak akan repot-repot mencoba membuat antarmuka antara pendekatan ini.
Tugas

@StasK terima kasih atas komentar Anda. Saya akan mencoba menggunakan pendekatan itu pada proyek saya berikutnya tetapi sayangnya saya tidak punya waktu untuk mengubah model sekarang. Saya sudah menjalankan imputasi dan model Bayesian pada setiap dataset yang dipermasalahkan - butuh hampir 3 minggu untuk menjalankannya. Apakah Anda pikir itu tidak valid bagi saya untuk menggabungkan sampel posterior?
Joe King

Aturan Rubin hanya berlaku untuk momen. Saya tidak tahu apakah Anda dapat menerapkannya pada distribusi dengan cara yang berarti. Mungkin tidak. Mungkin yang terbaik yang dapat Anda lakukan adalah mengatakan bahwa proses MCMC menghasilkan estimasi titik (sarana posterior) dan kesalahan standar (varian posterior), dan kemudian menggunakan aturan Rubin untuk mendapatkan perkiraan keseluruhan titik dan varians. Anda tahu betapa tragisnya kerugian dfs dalam model hierarkis, dan betapa berbahayanya mengumpulkan data: jika Anda memiliki 5 set data lengkap yang diimputasi dan 1M sampel MCMC pada masing-masing, itu berarti Anda memiliki 5 cluster, bukan 5M iid MCMC poin.
Tugas

Jawaban:


4

Dengan posisi luar yang berperilaku baik yang dapat dijelaskan secara memadai oleh deskripsi parametrik dari suatu distribusi, Anda mungkin dapat dengan mudah mengambil mean dan varian yang paling menggambarkan posterior Anda dan pergi dari sana. Saya menduga ini mungkin memadai dalam banyak keadaan di mana Anda tidak mendapatkan distribusi posterior yang benar-benar aneh.


0

Jika Anda menggunakan stata ada prosedur yang disebut "mim" yang mengumpulkan data setelah imputasi digunakan untuk model efek campuran. Saya tidak tahu apakah itu tersedia dalam R.


Terima kasih. Saya mungkin tidak menjelaskan dengan baik - Saya sudah memiliki sampel posterior, dari beberapa dataset berimputasi, dan saya ingin tahu apakah saya bisa menggabungkan ini dan kemudian membentuk interval kredibel yang diperhitungkan berkali-kali?
Joe King
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.