Mengukur "penyimpangan" untuk Poisson nol-meningkat atau nol-meningkat negatif?

Penyimpangan skala, didefinisikan sebagai D = 2 * (log-kemungkinan model jenuh dikurangi log-kemungkinan model pas), sering digunakan sebagai ukuran good-of-fit dalam model GLM. Persen penyimpangan dijelaskan, didefinisikan sebagai [D (model nol) - D (model pas)] / D (model nol), juga kadang-kadang digunakan sebagai analog GLM ke regresi linier, R-kuadrat. Selain dari fakta bahwa distribusi ZIP dan ZINB bukan bagian dari keluarga distribusi eksponensial, saya mengalami kesulitan memahami mengapa peningkatan penyimpangan dan persen penyimpangan dijelaskan tidak digunakan dalam pemodelan zero-inflated. Adakah yang bisa menjelaskan hal ini atau memberikan referensi yang bermanfaat? Terima kasih sebelumnya!

goodness-of-fit zero-inflation deviance

— aleanjeo
sumber

pertanyaan yang sangat bagus - Saya ingin tahu ini juga

— user2673238

Penyimpangan adalah konsep GLM, model ZIP dan ZINB bukan glm tetapi diformulasikan sebagai campuran distribusi yang terbatas yang merupakan GLM dan karenanya dapat diselesaikan dengan mudah melalui algoritma EM.

Catatan-catatan ini menggambarkan teori penyimpangan secara ringkas. Jika Anda membaca catatan itu, Anda akan melihat bukti bahwa model jenuh untuk regresi Poisson memiliki kemungkinan log

ℓ (λ_{s}) = \sum_{i = 1, \forall y_{i} \neq 0}^{n} [y_{i} l o g (y_{i}) - y_{i} - l o g (y_{i}!)]

$\ell(\lambda_s)= \sum_{i=1, \forall y_i\neq 0}^n \left[ y_ilog(y_i)-y_i -log(y_i!)\right]$

yang hasil dari plug-in perkiraan . $y_i =\hat{\lambda}_i$

Saya akan melanjutkan sekarang dengan kemungkinan ZIP karena matematika lebih sederhana, hasil yang sama berlaku untuk ZINB. Sayangnya untuk ZIP, tidak ada hubungan sederhana seperti di Poisson. The pengamatan th log-kemungkinan adalah $i$

ℓ_{i} (ϕ, λ) = Z_{i} l o g (ϕ + (1 - ϕ) e^{- λ}) + (1 - Z_{i}) [- λ + y_{i} l o g (λ) - l o g (y_{i}!)] .

$\ell_i(\phi, \lambda)=Z_ilog(\phi+(1-\phi)e^{-\lambda})+ (1-Z_i)\left[-\lambda +y_ilog(\lambda) -log(y_i!)\right].$

yang tidak diamati sehingga untuk mengatasi ini Anda akan perlu mengambil derivatif parsial wrt baik dan , mengatur persamaan untuk 0 dan kemudian memecahkan dan . Kesulitan di sini adalah nilai-nilai, ini bisa masuk ke atau menjadi dan tidak mungkin tanpa mengamati yang menempatkan observasi ke dalam. Namun, jika kita tahu $Z_i$ $\lambda$ $\phi$ $\lambda$ $\phi$ $y_i=0$ $\hat{\lambda}$ $\hat{\phi}$ $Z_i$ $y_i=0$ $Z_i$ nilai kami tidak akan memerlukan model ZIP karena kami tidak akan memiliki data yang hilang. Data yang diamati sesuai dengan kemungkinan "data lengkap" dalam formalisme EM.

Salah satu pendekatan yang mungkin masuk akal adalah bekerja dengan ekspektasi wrt dari kemungkinan log data lengkap, yang menghilangkan dan menggantikannya dengan ekspektasi, ini adalah bagian dari apa yang Algoritma EM menghitung (langkah E) dengan pembaruan terkini. Saya tidak tahu ada literatur yang telah mempelajari pendekatan ini untuk penyimpangan sekalipun. $Z_i$ $\mathbb{E}(\ell_i(\phi, \lambda))$ $Z_i$ $expected$

Juga, pertanyaan ini ditanyakan terlebih dahulu sehingga saya menjawab posting ini. Namun, ada pertanyaan lain tentang topik yang sama dengan komentar yang bagus dari Gordon Smyth di sini: penyimpangan untuk model poisson majemuk nol, data kontinu (R) di mana ia menyebutkan respons yang sama (ini adalah penjabaran dari komentar yang saya akan katakan) ditambah mereka disebutkan dalam komentar ke posting lain makalah yang mungkin ingin Anda baca. (penafian, saya belum membaca makalah yang direferensikan)

— Lucas Roberts
sumber