Dalam memodelkan data jumlah klaim di lingkungan asuransi, saya mulai dengan Poisson tetapi kemudian melihat penyebaran berlebihan. Quasi-Poisson lebih baik memodelkan hubungan mean-variance yang lebih besar daripada Poisson dasar, tetapi saya perhatikan bahwa koefisien identik dalam model Poisson dan Quasi-Poisson.
Jika ini bukan kesalahan, mengapa ini terjadi? Apa manfaat menggunakan Quasi-Poisson daripada Poisson?
Hal yang perlu diperhatikan:
- Kerugian yang mendasarinya adalah pada basis berlebih, yang (saya percaya) mencegah Tweedie dari bekerja - tapi itu distribusi pertama yang saya coba. Saya juga memeriksa model NB, ZIP, ZINB, dan Hurdle, tetapi masih menemukan Quasi-Poisson yang paling cocok.
- Saya menguji penyebaran berlebih melalui dispersiontest dalam paket AER. Parameter dispersi saya sekitar 8,4, dengan nilai-p pada besarnya 10 ^ -16.
- Saya menggunakan glm () dengan family = poisson atau quasipoisson dan tautan log untuk kode.
- Saat menjalankan kode Poisson, saya keluar dengan peringatan "In dpois (y, mu, log = TRUE): non-integer x = ...".
Panduan SE Utas per Ben:
counts/exposure
. Sebaliknya, Anda harus menambahkan istilah offset ( offset(log(exposure))
) ke model Anda.