R in Action (Kabacoff, 2011) menyarankan rutinitas berikut untuk menguji penyebaran berlebihan dalam regresi logistik:
Fit regresi logistik menggunakan distribusi binomial:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Fit regresi logistik menggunakan distribusi quasibinomial:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Gunakan chi-squared untuk menguji penyebaran berlebihan:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
Bisakah seseorang menjelaskan bagaimana dan mengapa distribusi chi-square digunakan untuk menguji penyebaran berlebihan di sini? Nilai p adalah 0,79 - bagaimana ini menunjukkan bahwa overdispersi bukan masalah dalam model distribusi binomial?