Efek acak silang dan data tidak seimbang


10

Saya memodelkan beberapa data di mana saya pikir saya memiliki dua efek acak silang. Tetapi kumpulan data tidak seimbang, dan saya tidak yakin apa yang perlu dilakukan untuk menjelaskannya.

Data saya adalah serangkaian acara. Suatu peristiwa terjadi ketika klien bertemu dengan penyedia untuk melakukan tugas, yang berhasil atau tidak. Ada ribuan klien dan penyedia, dan setiap klien & penyedia berpartisipasi dalam berbagai acara (sekitar 5 hingga 500). Setiap klien dan penyedia memiliki tingkat keterampilan, dan kemungkinan tugas berhasil adalah fungsi dari keterampilan kedua peserta. Tidak ada tumpang tindih antara klien dan penyedia.

Saya tertarik dengan masing-masing varian dari populasi klien dan penyedia, sehingga kita dapat mengetahui sumber mana yang memiliki pengaruh lebih besar pada tingkat keberhasilan. Saya juga ingin mengetahui nilai-nilai spesifik dari keterampilan di antara klien dan penyedia yang sebenarnya kami miliki datanya, untuk mengidentifikasi klien atau penyedia terbaik / terburuk.

Awalnya, saya ingin mengasumsikan bahwa probabilitas keberhasilan hanya didorong oleh tingkat keterampilan gabungan dari klien dan penyedia, tanpa efek tetap lainnya. Jadi, dengan asumsi bahwa x adalah faktor untuk klien dan y adalah faktor untuk penyedia, maka dalam R (menggunakan paket lme4) saya memiliki model yang ditentukan sebagai:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Satu masalah adalah bahwa klien tidak terdistribusi secara merata di seluruh penyedia. Klien dengan keterampilan yang lebih tinggi lebih mungkin dicocokkan dengan penyedia keterampilan yang lebih tinggi. Pemahaman saya adalah bahwa efek acak harus tidak berkorelasi dengan prediktor lain dalam model, tetapi saya tidak yakin bagaimana menjelaskannya.

Juga, beberapa klien dan penyedia memiliki sangat sedikit acara (kurang dari 10), sementara yang lain memiliki banyak (hingga 500), sehingga ada penyebaran luas dalam jumlah data yang kami miliki pada setiap peserta. Idealnya ini akan tercermin dalam "interval kepercayaan" di sekitar setiap perkiraan keterampilan peserta (meskipun saya pikir istilah interval kepercayaan tidak cukup benar di sini).

Apakah crossed random effect akan menjadi masalah karena data yang tidak seimbang? Jika demikian, apa saja pendekatan lain yang harus saya pertimbangkan?

Jawaban:


4

Sedangkan untuk data yang tidak seimbang, glmer mampu menangani kelompok yang tidak seimbang: yang sebenarnya merupakan titik pengembangan pendekatan model campuran dibandingkan dengan ANOVA tindakan berulang yang terbatas pada desain seimbang. Termasuk klien atau penyedia dengan beberapa peristiwa (bahkan hanya satu) masih lebih baik daripada menghilangkannya, karena meningkatkan estimasi varians residual (lihat Martin et al. 2011 ).

Jika Anda ingin menggunakan BLUP ( ranef(model)) sebagai proksi keterampilan, Anda memang harus memperkirakan ketidakpastian di sekitar prediksi titik Anda. Ini dapat dilakukan dalam kerangka kerja yang sering menggunakan ranef(model, postVar=TRUE)atau melalui distribusi posterior dalam kerangka kerja Bayesian. Namun Anda tidak boleh menggunakan BLUP sebagai variabel respons dalam model regresi lebih lanjut: lihat Hadfield et al. (2010) untuk contoh penyalahgunaan BLUP dan metode yang berbeda untuk memperhitungkan ketidakpastian mereka secara memadai.

Adapun korelasi keterampilan antara klien dan penyedia, ketidakseimbangan ini mungkin bermasalah jika sangat kuat, karena itu akan mencegah memperkirakan varians dengan benar karena masing-masing efek acak. Tampaknya tidak ada kerangka model campuran yang akan dengan mudah menangani korelasi antara intersepsi acak (lihat di sini untuk ekspresi formal dari masalah Anda). Bisakah Anda tepat seberapa berkorelasi adalah keberhasilan rata-rata klien dan penyedia?


Terima kasih banyak telah menangani salah satu pertanyaan lama saya. Jawabannya masih relevan dan panduan serta referensi dihargai. Maaf butuh waktu lama bagi saya untuk menyadari bahwa itu ada di sana! Saya telah menandai itu terpecahkan.
colonel.triq
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.