Jawaban:
What is the expected distribution of residuals?
Ini bervariasi dengan model dengan cara yang membuat ini tidak mungkin dijawab secara umum.
For example, should the residuals be distributed normally?
Tidak secara umum, tidak.
Ada seluruh industri rumahan yang berpusat di sekitar merancang residu untuk GLM yang lebih simetris atau bahkan "normal" (yaitu Gaussian), misalnya residu Pearson, residu Anscombe, residual penyimpangan yang disesuaikan, dll. Lihat misalnya Bab 6 dari James W Hardin dan Joseph M. Hilbe (2007) edisi kedua "Generalized Linear Models and Extensions" edisi kedua. College Station, TX: Stata Press. Jika variabel dependen adalah diskrit (variabel indikator atau hitungan) maka jelas sangat sulit untuk membuat distribusi residu yang diharapkan tepat Gaussian.
Satu hal yang dapat Anda lakukan adalah berulang kali mensimulasikan data baru dengan asumsi bahwa model Anda benar, perkirakan model Anda menggunakan data yang disimulasikan dan hitung residu, dan kemudian bandingkan residu Anda yang sebenarnya dengan residu yang disimulasikan. Di Stata saya akan melakukan ini seperti ini:
sysuse nlsw88, clear
glm wage i.union grade c.ttl_exp##c.ttl_exp, link(log) family(poisson)
// collect which observations were used in estimation and the predicted mean
gen byte touse = e(sample)
predict double mu if touse
// predict residuals
predict resid if touse, anscombe
// prepare variables for plotting a cumulative distribution function
cumul resid, gen(c)
// collect the graph command in the local macro `graph'
local graph "twoway"
// create 19 simulations:
gen ysim = .
forvalues i = 1/19 {
replace ysim = rpoisson(mu) if touse
glm ysim i.union grade c.ttl_exp##c.ttl_exp, link(log) family(poisson)
predict resid`i' if touse, anscombe
cumul resid`i', gen(c`i')
local graph "`graph' line c`i' resid`i', sort lpattern(solid) lcolor(gs8) ||"
}
local graph "`graph' line c resid, sort lpattern(solid) lcolor(black) "
// display the graph
`graph' legend(order(20 "actual residuals" 1 "simulations"))