Secara teoritis, apakah istilah intersep dalam model regresi logistik menangkap semua efek yang tidak teramati?
Ini adalah pertanyaan yang menarik, dan saya dapat melihat bagaimana dengan beberapa eksperimen sederhana, orang mungkin berpikir bahwa inilah masalahnya. Bahkan, dalam upaya pertama saya untuk mengatur ini, saya benar-benar membuat demonstrasi hanya akan salah memperkirakan intersep ketika saya salah menentukan model - jika tidak, semua estimasi koefisien baik-baik saja!
Dalam regresi OLS, istilah galat adalah tempat kami ingin semua efek yang belum kami pertanggungjawabkan ... tetapi jika ada efek yang belum kami pertanggungjawabkan (yaitu, modelnya salah spesifik) maka mereka akan cenderung memundurkan kepala mereka dalam fitur lain dari model, terutama jika ada hubungan yang membingungkan antara variabel. Ini juga berlaku untuk semua metode regresi konvensional lainnya - jika modelnya tidak ditentukan, estimasi koefisien tidak dapat dipercaya (tapi mungkin prediksi akan membantu atau model tersebut melayani beberapa tujuan bermanfaat lainnya).
Sebagai contoh, berikut adalah model binomial di mana hanya ada dua fitur, dan beberapa ketergantungan di antaranya. Saya telah memasang sedemikian rupa sehingga koefisiennya harusTetapi jika kita menghilangkan dari estimasi model, semua koefisien kami diperkirakan salah - dan sangat liar!β0= 10 ,β1= - 5 ,β2= 5.x2
set.seed(13)
N <- 100
inv_logit <- function(x){
ifelse(x< -20, -20, x)
out <- 1/(1+exp(-x))
return(out)
}
x0 <- rep(1, N)
x1 <- rnorm(N)
x2 <- rnorm(N, mean=10+3*x1-0.5*x1^2)
zTransform <- cbind(x0, x1, x2)%*%c(-10,-5,1)
summary(zTransform)
yObs <- rbinom(N, size=1, prob=inv_logit(zTransform))
badModel <- glm(yObs~x1, family=binomial(link="logit"))
summary(badModel)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.1404 0.2327 -0.604 0.546
x1 -1.3417 0.3041 -4.412 1.02e-05 ***
Tetapi jika kita menentukan model dengan benar, kita mendapatkan kembali koefisien kita, tetapi dengan beberapa kesalahan estimasi.
goodModel <- glm(yObs~x1+x2, family=binomial(link="logit"))
summary(goodModel)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.9512 2.9331 -3.393 0.000692 ***
x1 -4.8657 1.1918 -4.083 4.45e-05 ***
x2 0.9970 0.2948 3.382 0.000720 ***
Dengan kata lain, dalam model regresi logistik dengan kecocokan sempurna (yaitu semua variabel yang relevan dimasukkan), istilah intersep harus nol, benar?
Mengapa demikian? Misalkan Anda melakukan regresi logistik dan Anda tidak memiliki kovariat - misalnya, percobaan Anda bergulir mati dan setiap 6 adalah "sukses", dan setiap hasil lainnya adalah kegagalan (mungkin Anda melakukan jaminan kualitas untuk kasino). Jika kami menganggap bahwa dadu itu adil, Anda akan memperkirakan koefisien pada beberapa nilai bukan nol semata-mata karena ada hasil yang lebih tidak menguntungkan daripada hasil yang menguntungkan dalam data Anda.
Penting untuk dipahami bahwa Anda telah mengajukan dua pertanyaan berbeda di pos Anda. Yang pertama bertanya apakah intersep menangkap efek yang tidak dimodelkan (tidak! Semua perkiraan koefisien salah ketika model salah-ditentukan!) Pertanyaan kedua menanyakan apakah intersep harus nol - dan jawabannya juga tidak, karena istilah intersep ditetapkan oleh rasio "sukses" dengan "kegagalan".