Membahas regresi binomial dan strategi pemodelan

8

Hari ini saya mendapat pertanyaan tentang regresi binomial / logistik, berdasarkan analisis yang dilakukan oleh grup di departemen saya dan sedang mencari komentar. Saya membuat contoh di bawah ini untuk melindungi anonimitas mereka, tetapi mereka ingin melihat jawabannya.

Pertama, analisis dimulai dengan respon binomial 1 atau 0 yang sederhana (mis. Bertahan hidup dari satu musim kawin ke berikutnya) dan tujuannya adalah untuk memodelkan respons ini sebagai fungsi dari beberapa co-variate.

Namun, beberapa pengukuran beberapa co-variates tersedia untuk beberapa individu, tetapi tidak untuk yang lain. Sebagai contoh, bayangkan variabel x adalah ukuran laju metabolisme selama persalinan dan individu bervariasi dalam jumlah keturunan yang mereka miliki (misalnya variabel x diukur 3 kali untuk individu A, tetapi hanya sekali untuk individu B). Ketidakseimbangan ini bukan karena strategi pengambilan sampel para peneliti sendiri, tetapi mencerminkan karakteristik populasi tempat mereka mengambil sampel; beberapa individu memiliki keturunan lebih dari yang lain.

Saya juga harus menunjukkan bahwa mengukur respon binomial 0 \ 1 antara peristiwa persalinan tidak mungkin karena interval antara peristiwa ini cukup singkat. Sekali lagi, bayangkan spesies dalam pertanyaan memiliki musim kawin pendek, tetapi dapat melahirkan lebih dari satu keturunan selama musim.

Para peneliti memilih untuk menjalankan model di mana mereka menggunakan rata-rata variabel x sebagai satu kovariat dan jumlah keturunan individu melahirkan sebagai kovariat lainnya.

Sekarang, saya tidak tertarik pada pendekatan ini karena sejumlah alasan

1) Mengambil rata-rata x berarti kehilangan informasi dalam variabilitas dalam-individu x.

2) Rata-rata itu sendiri adalah statistik, jadi dengan memasukkannya ke dalam model, kita akhirnya melakukan statistik pada statistik.

3) Jumlah keturunan yang dimiliki seseorang dalam model, tetapi juga digunakan untuk menghitung rata-rata variabel x, yang saya pikir dapat menyebabkan masalah.

Jadi, pertanyaan saya adalah bagaimana orang akan memodelkan tipe data ini?

Saat ini, saya mungkin akan menjalankan model terpisah untuk individu yang memiliki satu keturunan, kemudian untuk individu yang memiliki dua keturunan dll. Selain itu, saya tidak akan menggunakan rata-rata variabel x dan hanya menggunakan data mentah untuk setiap kelahiran, tetapi saya tidak yakin ini jauh lebih baik.

Terima kasih atas waktu Anda

(PS: Saya minta maaf karena pertanyaannya cukup panjang, dan saya harap contohnya jelas)

— pengguna3136
sumber

Apakah mereka benar-benar tertarik untuk bertahan hidup dari satu musim ke musim berikutnya, atau akankah mereka lebih suka membuat model bertahan hidup dari waktu ke waktu?

— Matt Parker

3

Memang terdengar seperti Anda berada dalam sedikit kebingungan karena Anda hanya memiliki 1 variabel respons untuk setiap pengukuran individu. Saya awalnya akan merekomendasikan pendekatan multi-level. Tetapi agar itu berhasil, Anda perlu mengamati respons di level terendah - yang tidak Anda lakukan - Anda mengamati respons Anda di level individu (yang akan menjadi level 2 dalam MLM)

1) Mengambil rata-rata x berarti kehilangan informasi dalam variabilitas dalam-individu x.

Anda kehilangan variabilitas kovariat x, tetapi ini hanya penting jika informasi lain yang terkandung dalam X terkait dengan respons. Tidak ada yang menghentikan Anda dari menempatkan varian X sebagai kovariat.

2) Rata-rata itu sendiri adalah statistik, jadi dengan memasukkannya ke dalam model, kita akhirnya melakukan statistik pada statistik.

Statistik adalah fungsi dari data yang diamati. Jadi, setiap kovariat adalah "statistik". Jadi, Anda sudah melakukan "statistik statistik" apakah Anda suka atau tidak. Namun, itu membuat perbedaan untuk bagaimana Anda harus menafsirkan koefisien kemiringan - sebagai nilai rata-rata, dan bukan nilai dalam kelahiran individu. Jika Anda tidak peduli dengan kelahiran individu, maka ini sedikit artinya. Jika Anda melakukannya, maka pendekatan ini bisa menyesatkan.

3) Jumlah keturunan yang dimiliki seseorang dalam model, tetapi juga digunakan untuk menghitung rata-rata variabel x, yang saya pikir dapat menyebabkan masalah.

Itu hanya masalah jika rata-rata X secara fungsional / deterministik terkait dengan jumlah keturunan. Salah satu cara ini bisa terjadi adalah jika nilai X sama untuk setiap individu yang memiliki jumlah kelahiran yang sama. Biasanya ini bukan masalahnya.

Anda bisa menentukan model yang menyertakan setiap nilai X sebagai kovariat. Tapi ini mungkin akan melibatkan beberapa penelitian metodologis baru pada bagian Anda yang saya bayangkan. Fungsi kemungkinan Anda akan berbeda untuk masing-masing individu, karena perbedaan jumlah pengukuran di dalam individu. Saya tidak berpikir pemodelan multi-level berlaku dalam hal ini secara konseptual . Ini hanya karena kelahiran bukan bagian atau sampel dalam individu. Meskipun matematika mungkin sama.

Salah satu cara Anda dapat menggabungkan struktur ini adalah dengan membuat model seperti:

(Y_{i j} | x_{i j}) \sim B i n (Y_{i j} | n_{i j}, p_{i j})

$(Y_{ij}|x_{ij}) \sim Bin(Y_{ij}|n_{ij},p_{ij})$

Dimana $Y_{ij}$ adalah respons binomial untuk individu $i$ dan $j$ menunjukkan jumlah kelahiran, $x_{ij}$ adalah kovariat, dan $n_{ij}$ adalah jumlah individu dengan nilai kovariat yang sama, dan juga memiliki jumlah kelahiran yang sama. $p_{ij}$ adalah probabilitas, yang biasanya Anda modelkan sebagai:

g (p_{i j}) = x_{i j}^{T} β

$g(p_{ij}) = x_{ij}^{T}\beta$

Untuk beberapa fungsi monoton / tidak dapat dibalik $g(.)$ . Bagian "rumit" masuk karena dimensi $x_{ij}$ bervariasi dengan $j$ . Kemungkinan log dalam kasus ini adalah:

L = L (β) = \sum_{j \in B} [\sum_{i = 1}^{N_{j}} l o g [B i n (Y_{i j} | n_{i j}, g^{- 1} (x_{i j}^{T} β))]]

$L=L(\beta)=\sum_{j\in B}\Bigg[\sum_{i=1}^{N_{j}} log[Bin(Y_{ij}|n_{ij},g^{-1}(x_{ij}^{T}\beta))]\Bigg]$

Dimana $B$ hanyalah serangkaian jumlah kelahiran yang Anda miliki di kumpulan data Anda. Untuk memaksimalkannya, itu mungkin merupakan tugas nontrivial, dan Anda mungkin tidak akan mendapatkan persamaan IRLS biasa dari melakukan ekspansi seri taylor tentang perkiraan saat ini. Seri Taylor adalah cara saya akan pergi dari sini - Saya hanya tidak punya energi untuk menjalankan proses saat ini. Saya sarankan Anda mencoba mengatur kembali jawaban Anda sehingga terlihat seperti GLM binomial "biasa". Ini akan memungkinkan Anda untuk mengambil keuntungan dari perangkat lunak standar yang tersedia.

Apa yang bisa saya katakan adalah ketika Anda membedakan sehubungan dengan beta yang tergantung $j$ (misalnya koefisien untuk laju metabolisme untuk kelahiran ketiga), beberapa istilah dalam penjumlahan ini akan keluar. Ini pada dasarnya adalah kemungkinan "memberi tahu Anda" bahwa pengamatan tertentu tidak berkontribusi apa-apa untuk memperkirakan parameter tertentu (misalnya individu yang melahirkan dua atau kurang keturunan tidak memberikan kontribusi apa pun pada perkiraan kemiringan laju metabolisme untuk kelahiran ketiga).

Jadi secara ringkas, intuisi Anda tepat ketika Anda menyarankan bahwa ada sesuatu yang hilang. Namun, harga untuk "kemurnian" bisa tinggi - terutama jika Anda perlu menulis algoritma Anda sendiri untuk mendapatkan perkiraan Anda.

— probabilityislogic
sumber

2

Saya pikir Anda bisa menjelajahi model campuran nonlinier; ini akan memungkinkan Anda untuk menggunakan data yang Anda miliki secara efektif. Tetapi jika subjek yang relatif sedikit memiliki beberapa ukuran, itu tidak masalah banyak dan mungkin tidak bekerja dengan baik (saya pikir mungkin ada masalah konvergensi).

Jika Anda menggunakan SAS, Anda bisa menggunakan PROC GLIMMIX; jika menggunakan RI berpikir lme4 harus bermanfaat.

— Peter Flom
sumber