Saya memodelkan beberapa data di mana saya pikir saya memiliki dua efek acak silang. Tetapi kumpulan data tidak seimbang, dan saya tidak yakin apa yang perlu dilakukan untuk menjelaskannya.
Data saya adalah serangkaian acara. Suatu peristiwa terjadi ketika klien bertemu dengan penyedia untuk melakukan tugas, yang berhasil atau tidak. Ada ribuan klien dan penyedia, dan setiap klien & penyedia berpartisipasi dalam berbagai acara (sekitar 5 hingga 500). Setiap klien dan penyedia memiliki tingkat keterampilan, dan kemungkinan tugas berhasil adalah fungsi dari keterampilan kedua peserta. Tidak ada tumpang tindih antara klien dan penyedia.
Saya tertarik dengan masing-masing varian dari populasi klien dan penyedia, sehingga kita dapat mengetahui sumber mana yang memiliki pengaruh lebih besar pada tingkat keberhasilan. Saya juga ingin mengetahui nilai-nilai spesifik dari keterampilan di antara klien dan penyedia yang sebenarnya kami miliki datanya, untuk mengidentifikasi klien atau penyedia terbaik / terburuk.
Awalnya, saya ingin mengasumsikan bahwa probabilitas keberhasilan hanya didorong oleh tingkat keterampilan gabungan dari klien dan penyedia, tanpa efek tetap lainnya. Jadi, dengan asumsi bahwa x adalah faktor untuk klien dan y adalah faktor untuk penyedia, maka dalam R (menggunakan paket lme4) saya memiliki model yang ditentukan sebagai:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Satu masalah adalah bahwa klien tidak terdistribusi secara merata di seluruh penyedia. Klien dengan keterampilan yang lebih tinggi lebih mungkin dicocokkan dengan penyedia keterampilan yang lebih tinggi. Pemahaman saya adalah bahwa efek acak harus tidak berkorelasi dengan prediktor lain dalam model, tetapi saya tidak yakin bagaimana menjelaskannya.
Juga, beberapa klien dan penyedia memiliki sangat sedikit acara (kurang dari 10), sementara yang lain memiliki banyak (hingga 500), sehingga ada penyebaran luas dalam jumlah data yang kami miliki pada setiap peserta. Idealnya ini akan tercermin dalam "interval kepercayaan" di sekitar setiap perkiraan keterampilan peserta (meskipun saya pikir istilah interval kepercayaan tidak cukup benar di sini).
Apakah crossed random effect akan menjadi masalah karena data yang tidak seimbang? Jika demikian, apa saja pendekatan lain yang harus saya pertimbangkan?