Terima kasih atas pertanyaan yang menarik!
Perbedaan: Salah satu batasan model penghitungan standar adalah bahwa nol dan nonzeros (positif) diasumsikan berasal dari proses pembuatan data yang sama. Dengan model rintangan , kedua proses ini tidak dibatasi untuk menjadi sama. Ide dasarnya adalah bahwa probabilitas Bernoulli mengatur hasil biner dari apakah suatu variasi jumlah memiliki nol atau realisasi positif. Jika realisasinya positif, rintangannya dilewati, dan distribusi kondisional dari hal-hal positif diatur oleh model data hitung yang terpotong pada nol. Dengan model nol-inflasi, variabel respons dimodelkan sebagai campuran dari distribusi Bernoulli (atau menyebutnya massa titik nol) dan distribusi Poisson (atau distribusi jumlah lainnya yang didukung pada bilangan bulat non-negatif). Untuk lebih detail dan rumus, lihat, misalnya, Gurmu dan Trivedi (2011) dan Dalrymple, Hudson, dan Ford (2003).
Contoh: Model rintangan dapat dimotivasi oleh proses pengambilan keputusan berurutan yang dihadapi oleh individu. Anda pertama-tama memutuskan apakah Anda perlu membeli sesuatu, dan kemudian Anda memutuskan jumlah sesuatu itu (yang pasti positif). Ketika Anda diizinkan untuk (atau berpotensi dapat) membeli apa pun setelah keputusan Anda untuk membeli sesuatu adalah contoh situasi di mana model zero-inflated sesuai. Nol dapat berasal dari dua sumber: a) tidak ada keputusan untuk membeli; b) ingin membeli tetapi akhirnya tidak membeli apa pun (mis. kehabisan stok).
Beta: Model rintangan adalah kasus khusus dari model dua bagian yang dijelaskan dalam Bab 16 dari Frees (2011). Di sana, kita akan melihat bahwa untuk model dua bagian, jumlah perawatan kesehatan yang digunakan mungkin variabel kontinu maupun jumlah. Jadi apa yang agak membingungkan disebut "distribusi beta nol-inflasi" dalam literatur sebenarnya termasuk dalam kelas distribusi dan model dua bagian (sangat umum dalam ilmu aktuaria), yang konsisten dengan definisi di atas dari model rintangan . Buku yang luar biasa ini membahas model tanpa inflasi di bagian 12.4.1 dan model rintangan di bagian 12.4.2, dengan rumus dan contoh dari aplikasi aktuaria.
Sejarah: model zero-inflated Poisson (ZIP) tanpa kovariat memiliki sejarah panjang (lihat misalnya, Johnson dan Kotz, 1969). Bentuk umum model regresi ZIP yang menggabungkan kovariat adalah karena Lambert (1992). Model hurdle pertama kali diusulkan oleh seorang ahli statistik Kanada Cragg (1971), dan kemudian dikembangkan lebih lanjut oleh Mullahy (1986). Anda juga dapat mempertimbangkan Croston (1972), di mana jumlah geometris positif digunakan bersama dengan proses Bernoulli untuk menggambarkan proses bernilai integer yang didominasi oleh nol.
R: Akhirnya, jika Anda menggunakan R, ada paket pscl untuk "Kelas dan Metode untuk R yang dikembangkan di Laboratorium Komputasi Ilmu Politik" oleh Simon Jackman, yang berisi fungsi hurdle () dan zeroinfl () oleh Achim Zeileis.
Referensi berikut telah dikonsultasikan untuk menghasilkan yang di atas:
- Gurmu, S. & Trivedi, Kelebihan PK dalam Model Hitung untuk Perjalanan Rekreasi Jurnal Statistik Bisnis & Ekonomi, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribusi dalam Statistik: Distribusi Terpisah. 1969, Houghton MiZin, Boston
- Lambert, D., regresi Poisson Nol yang meningkat dengan aplikasi untuk cacat dalam pembuatan. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Beberapa Model Statistik untuk Variabel Ketergantungan Terbatas dengan Aplikasi untuk Permintaan Barang Tahan Lama Econometrica, 1971, 39, 829-844
- Mullahy, J. Spesifikasi dan pengujian beberapa model data hitung yang dimodifikasi Journal of Econometrics, 1986, 33, 341-365
- Membebaskan, Pemodelan Regresi EW dengan Aktuaria dan Aplikasi Keuangan Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, Campuran Hingga RPK, model Poisson and Hurdle yang dikembangkan nol dengan aplikasi untuk SIDS Computational Statistics & Analisis Data, 2003, 41, 491-504
- Croston, JD Forecasting dan Stock Control untuk Penelitian Operasional Kuartalan Intermittent, 1972, 23, 289-303