Pengujian untuk penyebaran berlebihan dalam regresi logistik

R in Action (Kabacoff, 2011) menyarankan rutinitas berikut untuk menguji penyebaran berlebihan dalam regresi logistik:

Fit regresi logistik menggunakan distribusi binomial:

model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
                   family=binomial(), data=iris)

Fit regresi logistik menggunakan distribusi quasibinomial:

model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, 
                           family=quasibinomial(), data=iris)

Gunakan chi-squared untuk menguji penyebaran berlebihan:

pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, 
       model_binom$df.residual, lower = F)
# [1] 0.7949171

Bisakah seseorang menjelaskan bagaimana dan mengapa distribusi chi-square digunakan untuk menguji penyebaran berlebihan di sini? Nilai p adalah 0,79 - bagaimana ini menunjukkan bahwa overdispersi bukan masalah dalam model distribusi binomial?

— luciano
sumber

Sangat sulit untuk tidak cocok dengan distribusi Bernoulli kecuali Anda memiliki korelasi pengamatan. Bagaimana dengan kecocokan yang Anda duga tidak memadai?

— Frank Harrell

Dengan pengamatan berkorelasi, maksud Anda, bahwa setiap persidangan Bernoulli tidak independen?

— luciano

Ya, misalnya korelasi serial atau di dalam kluster; uji coba non-independen.

— Frank Harrell

Pendekatan yang dijelaskan membutuhkan perhitungan yang tidak perlu. Statistik pengujiannya adil

sum(residuals(model_binom, type = "deviance")^2)

Ini persis sama dengan Pearson $\chi^2$ uji statistik karena kurang fit, karena itu memiliki distribusi chi-kuadrat.

Penyebaran berlebih tidak berlaku untuk data Bernoulli. Nilai besar $\chi^2$ dapat menunjukkan kurangnya kovariat atau kekuatan, atau istilah interaksi, atau data harus dikelompokkan. Nilai p 0,79 menunjukkan tes gagal menemukan masalah.

— oleh
sumber

Bukankah jawaban di atas harus diubah sebagai berikut? sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual

— Steve VW