Properti regresi logistik

Kami sedang bekerja dengan beberapa regresi logistik dan kami telah menyadari bahwa probabilitas estimasi rata-rata selalu sama dengan proporsi yang dalam sampel; yaitu, rata-rata nilai yang dipasang sama dengan rata-rata sampel.

Adakah yang bisa menjelaskan alasannya atau memberikan referensi di mana saya dapat menemukan demonstrasi ini?

— Gabi Foix
sumber

Alasan untuk ini adalah bahwa regresi logistik berusaha untuk mencapai hal itu: memodelkan distribusi data, termasuk probabilitas sebelumnya ("rata-rata"). Apakah perilaku ini tidak diinginkan?

— bayerj

@ bayer Ketidaklinieran fungsi tautan menunjukkan bahwa fenomena ini lebih dalam dari karakterisasi Anda. Benar-benar ada sesuatu yang harus diperagakan di sini.

— whuber

Properti ini kadang-kadang disebut kalibrasi-in-the-large ketika regresi logistik digunakan untuk memperkirakan risiko.

— julieth

Perilaku yang Anda amati adalah kasus "khas" dalam regresi logistik, tetapi tidak selalu benar. Ini juga berlaku lebih umum (lihat di bawah). Ini adalah konsekuensi dari pertemuan tiga fakta yang terpisah.

Pilihan pemodelan log-odds sebagai fungsi linier dari prediktor,
Penggunaan kemungkinan maksimum untuk mendapatkan estimasi koefisien dalam model regresi logistik, dan
Dimasukkannya istilah intersep dalam model.

Jika salah satu di atas tidak ada, maka probabilitas estimasi rata-rata tidak akan, secara umum, cocok dengan proporsi yang ada dalam sampel.

Namun, (hampir) semua perangkat lunak statistik menggunakan estimasi kemungkinan maksimum untuk model tersebut, sehingga, dalam praktiknya, item 1 dan 2 pada dasarnya selalu ada, dan item 3 biasanya ada, kecuali dalam kasus khusus.

Beberapa detail

Dalam kerangka regresi logistik yang khas, kami mengamati hasil uji binomial independen dengan probabilitas . Mari menjadi respon yang diamati. Maka kemungkinan totalnya adalah $p_i$ $y_i$ Dan log-likelihood adalah

L. = \prod_{saya = 1}^{n} {hal}_{saya}^{y_{saya}} (1 - {hal}_{saya})^{1 - y_{saya}} = \prod_{saya = 1}^{n} \exp (y_{saya} catatan ({hal}_{saya} / (1 - {hal}_{saya})) + catatan (1 - {hal}_{saya})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{saya = 1}^{n} y_{saya} catatan ({hal}_{saya} / (1 - {hal}_{saya})) + \sum_{saya = 1}^{n} catatan (1 - {hal}_{saya}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

Sekarang, kami memiliki vektor prediktor untuk setiap observasi dan dari Fakta 1 di atas, model regresi berpendapat logistik yang $\newcommand{\x}{\mathbf x}\x_i$

catatan \frac{{hal}_{saya}}{1 - {hal}_{saya}} = β^{T} x_{saya},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$

β

$\beta$

p_{i} = 1 / (1 + e^{- β^{T} x_{i}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

$\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{saya} y_{saya} x_{saya} - \sum_{saya} \frac{x_{saya}}{1 + \exp (- β^{T} x_{saya})} = \sum_{saya} y_{saya} x_{saya} - \sum_{saya} {hal}_{saya} x_{saya},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{saya} y_{saya} x_{saya} = \sum_{saya} {\hat{hal}}_{saya} x_{saya},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$

{\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

$\x_i$ $j$ $i$ $\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

Simulasi

$R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Kasus umum : Seperti yang disinggung di atas, sifat bahwa respons rata-rata sama dengan rata-rata yang diprediksi rata-rata berpegang pada generalisasi yang jauh lebih besar untuk kelas model linier umum yang sesuai dengan kemungkinan maksimum, menggunakan fungsi tautan kanonik , dan termasuk penyadapan dalam model.

Referensi

Beberapa referensi bagus untuk teori yang terkait adalah sebagai berikut.

A. Agresti (2002), Analisis Data Kategorikal , edisi ke-2, Wiley.
P. McCullagh dan JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (Teks dari penulis asli dari metode umum.)

— kardinal
sumber

+1 Demonstrasi ini (khusus untuk model regresi logistik, tanpa mencoba menggeneralisasi semua GLM) juga diberikan dalam Maddala (1983) Variabel Ketergantungan dan Kualitatif Terbatas dalam Ekonometrik , hal. 25-26.

— Tugas

@StasK: Terima kasih untuk referensi tambahan, yang tidak saya kenal. Bersulang.

— kardinal

@ cardinal: Saya tidak ingat Agresti mendiskusikan ini. Apakah ini dibahas di McCullagh dan Nelder?

— julieth