Hari ini saya mendapat pertanyaan tentang regresi binomial / logistik, berdasarkan analisis yang dilakukan oleh grup di departemen saya dan sedang mencari komentar. Saya membuat contoh di bawah ini untuk melindungi anonimitas mereka, tetapi mereka ingin melihat jawabannya.
Pertama, analisis dimulai dengan respon binomial 1 atau 0 yang sederhana (mis. Bertahan hidup dari satu musim kawin ke berikutnya) dan tujuannya adalah untuk memodelkan respons ini sebagai fungsi dari beberapa co-variate.
Namun, beberapa pengukuran beberapa co-variates tersedia untuk beberapa individu, tetapi tidak untuk yang lain. Sebagai contoh, bayangkan variabel x adalah ukuran laju metabolisme selama persalinan dan individu bervariasi dalam jumlah keturunan yang mereka miliki (misalnya variabel x diukur 3 kali untuk individu A, tetapi hanya sekali untuk individu B). Ketidakseimbangan ini bukan karena strategi pengambilan sampel para peneliti sendiri, tetapi mencerminkan karakteristik populasi tempat mereka mengambil sampel; beberapa individu memiliki keturunan lebih dari yang lain.
Saya juga harus menunjukkan bahwa mengukur respon binomial 0 \ 1 antara peristiwa persalinan tidak mungkin karena interval antara peristiwa ini cukup singkat. Sekali lagi, bayangkan spesies dalam pertanyaan memiliki musim kawin pendek, tetapi dapat melahirkan lebih dari satu keturunan selama musim.
Para peneliti memilih untuk menjalankan model di mana mereka menggunakan rata-rata variabel x sebagai satu kovariat dan jumlah keturunan individu melahirkan sebagai kovariat lainnya.
Sekarang, saya tidak tertarik pada pendekatan ini karena sejumlah alasan
1) Mengambil rata-rata x berarti kehilangan informasi dalam variabilitas dalam-individu x.
2) Rata-rata itu sendiri adalah statistik, jadi dengan memasukkannya ke dalam model, kita akhirnya melakukan statistik pada statistik.
3) Jumlah keturunan yang dimiliki seseorang dalam model, tetapi juga digunakan untuk menghitung rata-rata variabel x, yang saya pikir dapat menyebabkan masalah.
Jadi, pertanyaan saya adalah bagaimana orang akan memodelkan tipe data ini?
Saat ini, saya mungkin akan menjalankan model terpisah untuk individu yang memiliki satu keturunan, kemudian untuk individu yang memiliki dua keturunan dll. Selain itu, saya tidak akan menggunakan rata-rata variabel x dan hanya menggunakan data mentah untuk setiap kelahiran, tetapi saya tidak yakin ini jauh lebih baik.
Terima kasih atas waktu Anda
(PS: Saya minta maaf karena pertanyaannya cukup panjang, dan saya harap contohnya jelas)