GLM dengan data kontinu menumpuk di nol


11

Saya mencoba menjalankan model untuk memperkirakan seberapa baik penyakit-penyakit bencana seperti TB, AIDS dll mempengaruhi pengeluaran untuk rawat inap. Saya memiliki "biaya rawat inap" sebagai variabel dependen dan berbagai penanda individu sebagai variabel independen, hampir semuanya adalah dummy seperti jenis kelamin, status kepala rumah tangga, status kemiskinan dan tentu saja boneka untuk apakah Anda menderita penyakit (plus usia dan umur kuadrat) dan banyak istilah interaksi.

Seperti yang diharapkan, ada jumlah yang signifikan - dan maksud saya banyak - data menumpuk di nol (yaitu, tidak ada pengeluaran untuk rawat inap dalam periode referensi 12 bulan). Apa cara terbaik untuk menangani data seperti ini?

Sampai sekarang saya memutuskan untuk mengubah biaya menjadi ln(1+cost)sehingga mencakup semua pengamatan dan kemudian menjalankan model linier. Apakah saya di jalur yang benar?


1
Apakah tanggapan Anda benar-benar berarti? Istilah yang Anda cari adalah nol-inflasi .
gung - Reinstate Monica

2
Satu dapat memiliki distribusi kontinu nol-meningkat juga; ada model gamma nol-meningkat misalnya.
Glen_b -Reinstate Monica

1
@ Glen_b, itulah yang ada dalam pikiran saya. Tapi aku belum pernah melakukannya. Saran Frank Harrell tentang OLR adalah cara cerdas untuk mengatasi masalah juga.
gung - Reinstate Monica

Jawaban:


8

Seperti dibahas di tempat lain di situs, regresi ordinal (misalnya, peluang proporsional, bahaya proporsional, probit) adalah pendekatan yang fleksibel dan kuat. Diskontinuitas diizinkan dalam distribusi , termasuk penggumpalan yang ekstrem. Tidak ada yang diasumsikan tentang distribusi untuk tunggal . Model zero inflated membuat asumsi jauh lebih banyak daripada model semi parametrik. Untuk studi kasus selengkapnya, lihat materi kursus saya Bab 15 di http://biostat.mc.vanderbilt.edu/CourseBios330 .YYX

Satu keuntungan besar dari model ordinal untuk terus menerus adalah bahwa Anda tidak perlu tahu bagaimana mengubah sebelum analisis.YY



1

Saran menggunakan model Poisson zero-inflated adalah awal yang menarik. Ini memiliki beberapa manfaat secara bersama - sama memodelkan kemungkinan memiliki biaya yang berhubungan dengan penyakit serta proses dari apa biaya-biaya itu ternyata jika Anda memiliki penyakit apa pun. Ia memiliki batasan bahwa ia memaksakan beberapa struktur ketat pada apa bentuk hasil itu, tergantung pada biaya yang timbul (misalnya hubungan varian-rata-rata yang spesifik dan hasil bilangan bulat positif ... yang terakhir dapat disesuaikan untuk beberapa tujuan pemodelan).

Jika Anda baik-baik saja dengan merawat masuk terkait penyakit dan biaya terkait penyakit tergantung pada proses penerimaan secara independen, Anda dapat memperpanjang ini dengan terlebih dahulu memodelkan proses biner y / n apakah Anda dikenakan biaya apa pun terkait penyakit? Ini adalah model regresi logistik sederhana dan memungkinkan Anda untuk mengevaluasi faktor risiko dan prevalensi. Karena itu, Anda dapat membatasi analisis untuk subset individu yang telah dikenakan biaya apa pun dan memodelkan proses biaya aktual menggunakan sejumlah teknologi pemodelan. Poisson adalah baik, quasi-poisson akan lebih baik (akuntansi untuk sumber kovarisasi kecil yang tidak terukur dalam data dan penyimpangan dari asumsi model). Tapi langit adalah batasnya dengan memodelkan proses biaya berkelanjutan.

Jika Anda benar-benar perlu memodelkan korelasi parameter dalam proses, Anda dapat menggunakan perkiraan bootstrap SE. Saya tidak melihat alasan mengapa ini tidak valid, tetapi akan penasaran mendengar masukan orang lain jika ini mungkin salah. Secara umum, saya pikir itu adalah dua pertanyaan terpisah dan harus diperlakukan sedemikian rupa sehingga memiliki kesimpulan yang valid.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.