Kasus "bias redaman" dapat lebih jelas disajikan jika kita memeriksa model "probit" - tetapi hasilnya terbawa ke regresi logistik juga.
Di bawah model Probabilitas Bersyarat (Logistik (logit), "probit", dan "Probabilitas Linear") kita dapat mendalilkan model regresi linier laten (tidak dapat diamati):
y∗=Xβ+u
di mana adalah variabel yang tidak dapat diobservasi secara terus-menerus (dan X adalah matriks regresi). Istilah kesalahan diasumsikan independen dari regressor, dan mengikuti distribusi yang memiliki simetris kerapatan sekitar nol , dan dalam kasus kami, distribusi normal standar F U ( u ) = Φ ( u ) .y∗XFU(u)=Φ(u)
Kami berasumsi bahwa apa yang kami amati, yaitu variabel biner , adalah fungsi Indikator dari y ∗ yang tidak dapat diobservasi :yy∗
y=1ify∗>0,y=0ify∗≤0
Kemudian kita bertanya "apa adalah probabilitas bahwa akan mengambil nilai 1 diberikan regressors?" (Yaitu kita melihat probabilitas bersyarat). Ini adalahy1
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
kesetaraan terakhir karena properti "reflektif" dari fungsi distribusi kumulatif standar, yang berasal dari simetri fungsi densitas sekitar nol. Perhatikan bahwa meskipun kita mengasumsikan bahwa tidak bergantung pada X , pengkondisian pada X diperlukan untuk memperlakukan kuantitas X β sebagai non-acak.uXXXβ
Jika kita mengasumsikan bahwa , maka kita memperoleh model teoretisXβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
Mari be independen X 1 dan keliru dikeluarkan dari spesifikasi regresi yang mendasari. Jadi kami tentukanX2X1
Asumsikan lebih lanjut bahwa X 2 juga merupakan variabel acak normal X 2
y∗=b0+b1X1+ϵ
X2 . Tapi ini artinya
X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
karena penutupan-penambahan-tambahan dari distribusi normal (dan asumsi independensi). Menerapkan logika yang sama seperti sebelumnya, di sini kita miliki
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
Standardisasi variabel yang kita milikiϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
(1)( 2 ).
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).