Menyesuaikan model multilevel ke data survei kompleks di R

11

Saya mencari saran tentang bagaimana menganalisis data survei yang kompleks dengan model bertingkat di R. Saya telah menggunakan surveypaket ini untuk menentukan probabilitas pemilihan yang tidak setara dalam model satu tingkat, tetapi paket ini tidak memiliki fungsi untuk pemodelan bertingkat. The lme4paket besar untuk pemodelan bertingkat, namun tidak ada cara yang saya tahu untuk memasukkan bobot pada tingkat yang berbeda dari clustering. Asparouhov (2006) mengatur masalah:

Model multilevel sering digunakan untuk menganalisis data dari desain cluster sampling. Namun demikian, desain pengambilan sampel seperti ini sering menggunakan probabilitas seleksi yang tidak sama pada tingkat klaster dan pada tingkat individu. Bobot pengambilan sampel ditetapkan pada satu atau kedua level untuk mencerminkan probabilitas ini. Jika bobot sampel diabaikan pada level mana pun, estimasi parameter dapat menjadi bias secara substansial.

Salah satu pendekatan untuk model dua tingkat adalah penaksir multisvel pseudo maksimum likelihood (MPML) yang diterapkan dalam MPLUS ( Asparouhov et al,? ). Carle (2009) meninjau paket perangkat lunak utama dan membuat beberapa rekomendasi tentang cara melanjutkan:

Untuk melakukan MLM dengan benar dengan data survei yang kompleks dan bobot desain, analis memerlukan perangkat lunak yang dapat mencakup bobot yang diukur di luar program dan termasuk bobot skala "baru" tanpa modifikasi program otomatis. Saat ini, tiga dari program perangkat lunak MLM utama memungkinkan ini: Mplus (5.2), MLwiN (2.02), dan GLLAMM. Sayangnya, baik HLM maupun SAS tidak dapat melakukan ini.

West dan Galecki (2013) memberikan ulasan yang lebih diperbarui, dan saya akan mengutip panjang lebar bagian yang relevan:

Kadang-kadang, analis ingin mencocokkan LMM dengan mensurvei kumpulan data yang dikumpulkan dari sampel dengan desain yang kompleks (lihat Heeringa et al, 2010, Bab 12). Desain sampel yang kompleks umumnya ditandai oleh pembagian populasi ke dalam strata, seleksi multi-tahap kelompok individu dari dalam strata, dan probabilitas seleksi yang tidak sama untuk kedua cluster dan individu-individu akhir yang dijadikan sampel. Probabilitas seleksi yang tidak sama ini pada umumnya mengarah pada konstruksi bobot sampel untuk individu, yang memastikan estimasi parameter deskriptif yang tidak bias ketika dimasukkan ke dalam analisis. Bobot ini mungkin lebih lanjut disesuaikan untuk survei nonresponse dan dikalibrasi ke total populasi yang diketahui. Secara tradisional, analis mungkin mempertimbangkan pendekatan berbasis desain untuk menggabungkan fitur pengambilan sampel yang kompleks ini ketika memperkirakan model regresi (Heeringa et al., 2010). Baru-baru ini, ahli statistik telah mulai mengeksplorasi pendekatan berbasis model untuk menganalisis data ini, menggunakan LMM untuk menggabungkan efek tetap dari strata sampel dan efek acak dari cluster sampel.

Kesulitan utama dengan pengembangan pendekatan berbasis model untuk menganalisis data ini telah memilih metode yang tepat untuk menggabungkan bobot sampel (lihat Gelman, 2007 untuk ringkasan masalah). Pfeffermann et al. (1998), Asparouhov dan Muthen (2006), dan Rabe-Hesketh dan Skrondal (2006) telah mengembangkan teori untuk memperkirakan model bertingkat dengan cara yang menggabungkan bobot survei, dan Rabe-Hesketh dan Skrondal (2006), Carle (2009) dan Heeringa et al. (2010, Bab 12) telah menyajikan aplikasi menggunakan prosedur perangkat lunak saat ini, tetapi ini terus menjadi area aktif penelitian statistik. Prosedur perangkat lunak yang mampu menyesuaikan LMM berada pada berbagai tahap penerapan pendekatan yang telah diusulkan dalam literatur sejauh ini untuk menggabungkan fitur desain yang kompleks, dan analis perlu mempertimbangkan ini ketika menyesuaikan LMM ke data sampel survei yang kompleks. Analis yang tertarik untuk menyesuaikan LMMs dengan data yang dikumpulkan dari survei sampel kompleks akan tertarik pada prosedur yang mampu menggabungkan bobot survei dengan benar ke dalam prosedur estimasi (HLM, MLwiN, Mplus, xtmixed, dan gllamm), konsisten dengan literatur saat ini dalam hal ini. daerah.

Ini membawa saya ke pertanyaan saya: apakah ada yang punya rekomendasi praktik terbaik untuk memasang LMM ke data survei kompleks di R?

r mixed-model weighted-sampling cluster-sample

— Eric Green
sumber

1

hi eric, link di paragraf yang dimulai wih i've never said it beforedari postingan ini pada addhealth mungkin menarik .. :(

— Anthony Damico

1

@AnthonyDamico, tautannya sekarang rusak :-(

— Ben Bolker

@ BenBolker! mereka telah mengubah nama mikrodata, jadi saya juga melakukannya :) lokasi baru: asdfree.com/search/label/…

— Anthony Damico

Maaf jika saya salah mengartikan pertanyaan Anda, tetapi pemahaman saya adalah Anda telah memperbaiki bobot (diketahui) dari desain percobaan, dan Anda ingin menggunakan model campuran linier yang menyertakan bobot desain ini. The lmerfungsi dalam lme4paket memungkinkan spesifikasi dari weightsargumen untuk proses model yang pas, jadi jika Anda telah tetap beban desain, Anda harus dapat menggabungkan mereka dengan argumen itu. Apakah saya mendapatkan ujung tongkat yang salah di sini? Apakah ada alasan mengapa ini tidak sesuai dengan kebutuhan Anda?

— Ben - Reinstate Monica

4

Sejauh yang saya tahu Anda tidak dapat benar-benar melakukan ini dalam R saat ini, jika Anda benar-benar membutuhkan model campuran (misalnya, jika Anda peduli tentang komponen varians)

Argumen bobot untuk lme4::lmer() tidak melakukan apa yang Anda inginkan, karena lmer()menafsirkan bobot sebagai bobot presisi bukan sebagai bobot sampel. Berbeda dengan model linier biasa dan linier umum, Anda bahkan tidak mendapatkan estimasi titik yang benar dengan kode yang memperlakukan bobot sampel sebagai bobot presisi untuk model campuran.

Jika Anda tidak perlu memperkirakan komponen varians dan Anda hanya ingin fitur bertingkat model untuk mendapatkan kesalahan standar yang benar yang dapat Anda gunakan survey::svyglm().

— Thomas Lumley
sumber

0

The WeMix paket sekarang pilihan, setidaknya untuk model multilevel linear dan logistik. Tampaknya sangat lambat, dibandingkan dengan menjalankan model ini di Stata atau MPlus.

— mengisap
sumber

0

Saya juga menghadapi masalah yang sama. Setelah mencari banyak dalam beberapa hari terakhir, saya telah menemukan bahwa paket BIFIEsurvey adalah yang paling dekat dengan menganalisis model bertingkat dengan data survei yang kompleks dengan sampel dan replikasi bobot, dan nilai yang masuk akal: https://cran.r-project.org/web /packages/BIFIEsurvey/index.html Paket ini, bagaimanapun, terbatas pada model dua tingkat. Saya juga telah membaca bahwa penulis paket "intsvy" berencana dalam jangka panjang untuk membuat "intsvy" untuk dapat menganalisis model bertingkat tetapi sampai hari ini masih belum bisa. Jika ada kemajuan terkait solusi untuk masalah ini yang mungkin saya lewatkan secara tidak sengaja, saya akan senang jika seseorang dapat membagikannya.

— G_Konyarov
sumber