Saya mencoba menjalankan model untuk memperkirakan seberapa baik penyakit-penyakit bencana seperti TB, AIDS dll mempengaruhi pengeluaran untuk rawat inap. Saya memiliki "biaya rawat inap" sebagai variabel dependen dan berbagai penanda individu sebagai variabel independen, hampir semuanya adalah dummy seperti jenis kelamin, status kepala rumah tangga, status kemiskinan dan tentu saja boneka untuk apakah Anda menderita penyakit (plus usia dan umur kuadrat) dan banyak istilah interaksi.
Seperti yang diharapkan, ada jumlah yang signifikan - dan maksud saya banyak - data menumpuk di nol (yaitu, tidak ada pengeluaran untuk rawat inap dalam periode referensi 12 bulan). Apa cara terbaik untuk menangani data seperti ini?
Sampai sekarang saya memutuskan untuk mengubah biaya menjadi ln(1+cost)
sehingga mencakup semua pengamatan dan kemudian menjalankan model linier. Apakah saya di jalur yang benar?