Perilaku yang Anda amati adalah kasus "khas" dalam regresi logistik, tetapi tidak selalu benar. Ini juga berlaku lebih umum (lihat di bawah). Ini adalah konsekuensi dari pertemuan tiga fakta yang terpisah.
- Pilihan pemodelan log-odds sebagai fungsi linier dari prediktor,
- Penggunaan kemungkinan maksimum untuk mendapatkan estimasi koefisien dalam model regresi logistik, dan
- Dimasukkannya istilah intersep dalam model.
Jika salah satu di atas tidak ada, maka probabilitas estimasi rata-rata tidak akan, secara umum, cocok dengan proporsi yang ada dalam sampel.
Namun, (hampir) semua perangkat lunak statistik menggunakan estimasi kemungkinan maksimum untuk model tersebut, sehingga, dalam praktiknya, item 1 dan 2 pada dasarnya selalu ada, dan item 3 biasanya ada, kecuali dalam kasus khusus.
Beberapa detail
Dalam kerangka regresi logistik yang khas, kami mengamati hasil uji binomial independen dengan probabilitas . Mari y i menjadi respon yang diamati. Maka kemungkinan totalnya adalah
L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p ihalsayaysaya
Dan log-likelihood adalah
ℓ = n Σ i = 1 y i log ( p i / ( 1 - p i ) ) + n Σ i = 1 log ( 1 - p i )
L = ∏i = 1nhalysayasaya( 1 - halsaya)1 - ysaya= ∏i = 1nexp( ysayacatatan( halsaya/ (1- halsaya) ) + log( 1 - halsaya) ),
ℓ = ∑i = 1nysayacatatan( halsaya/ (1- halsaya) ) + ∑i = 1ncatatan( 1 - halsaya).
Sekarang, kami memiliki vektor prediktor untuk setiap observasi dan dari Fakta 1 di atas, model regresi berpendapat logistik yang
log p ixsaya
catatanhalsaya1 - halsaya= βTxsaya,
βhalsaya= 1 / ( 1 + e- βTxsaya)
∂ℓ / ∂β= 0
∂ℓ∂β= ∑sayaysayaxsaya- ∑sayaxsaya1 + exp( - βTxsaya)= ∑sayaysayaxsaya- ∑sayahalsayaxsaya,
∑sayaysayaxsaya= ∑sayahal^sayaxsaya,
hal^saya= ( 1 + exp( - β^Txsaya) )- 1
xsayajsaya∑sayaysayaxsaya j= ∑sayaysaya= ∑sayahal^saya
Simulasi
R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Kasus umum : Seperti yang disinggung di atas, sifat bahwa respons rata-rata sama dengan rata-rata yang diprediksi rata-rata berpegang pada generalisasi yang jauh lebih besar untuk kelas model linier umum yang sesuai dengan kemungkinan maksimum, menggunakan fungsi tautan kanonik , dan termasuk penyadapan dalam model.
Referensi
Beberapa referensi bagus untuk teori yang terkait adalah sebagai berikut.
- A. Agresti (2002), Analisis Data Kategorikal , edisi ke-2, Wiley.
- P. McCullagh dan JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (Teks dari penulis asli dari metode umum.)