Regresi Logistik: Variabel Respon Bernoulli vs Binomial

Saya ingin melakukan regresi logistik dengan respon binomial berikut dan dengan $X_1$ dan sebagai prediktor saya. $X_2$

masukkan deskripsi gambar di sini

Saya dapat menyajikan data yang sama dengan respons Bernoulli dalam format berikut.

masukkan deskripsi gambar di sini

Output regresi logistik untuk 2 set data ini sebagian besar sama. Residual penyimpangan dan AIC berbeda. (Perbedaan antara penyimpangan nol dan penyimpangan residual adalah sama dalam kedua kasus - 0,228.)

Berikut ini adalah output regresi dari R. Set data disebut binom.data dan bern.data.

Ini adalah output binomial.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Ini adalah output Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Pertanyaan saya:

1) Saya dapat melihat bahwa estimasi titik dan kesalahan standar antara 2 pendekatan ini setara dalam kasus khusus ini. Apakah kesetaraan ini berlaku secara umum?

2) Bagaimana jawaban untuk Pertanyaan # 1 dapat dibenarkan secara matematis?

3) Mengapa residual penyimpangan dan AIC berbeda?

— Seorang ilmuwan
sumber

Jawaban:

1) Ya. Anda dapat mengagregasi / menghilangkan agregasi (?) Data binomial dari individu dengan kovariat yang sama. Ini berasal dari fakta bahwa statistik yang cukup untuk model binomial adalah jumlah total peristiwa untuk setiap vektor kovariat; dan Bernoulli hanyalah kasus khusus dari binomial. Secara intuitif, setiap uji coba Bernoulli yang membentuk hasil binomial adalah independen, sehingga tidak boleh ada perbedaan antara menghitung ini sebagai hasil tunggal atau sebagai uji coba individu terpisah.

2) Katakanlah kita memiliki $n$ vektor kovariat unik $x_1, x_2, \ldots, x_n$ , masing-masing memiliki hasil binomial pada uji coba $N_i$ , yaitu Anda telah menentukan model regresi logistik, jadi

Y_{i} \sim B i n (N_{i}, p_{i})

$Y_i \sim \mathrm{Bin}(N_i, p_i)$

l o g i t (p_{i}) = \sum_{k = 1}^{K} β_{k} x_{i k}

$\mathrm{logit}(p_i) = \sum_{k=1}^K \beta_k x_{ik}$ meskipun kita akan melihat nanti bahwa ini tidak penting.

Log-likelihood untuk model ini adalah dan kami memaksimalkannya sehubungan dengan(dalamistilah) untuk mendapatkan estimasi parameter kami.

ℓ (β; Y) = \sum_{i = 1}^{n} \log (\binom{N_{i}}{Y_{i}}) + Y_{i} \log (p_{i}) + (N_{i} - Y_{i}) \log (1 - p_{i})

$\ell(\beta; Y) = \sum_{i=1}^n \log {N_i \choose Y_i} + Y_i \log(p_i) + (N_i - Y_i) \log(1-p_i)$

β

$\beta$

p_{i}

$p_i$

Sekarang, pertimbangkan bahwa untuk setiap , kami membagi hasil binomial menjadi hasil individu Bernoulli / biner, seperti yang telah Anda lakukan. Secara khusus, buat Artinya, pertama adalah 1s dan sisanya adalah 0s. Ini persis seperti yang Anda lakukan - tetapi Anda bisa melakukan yang sama dengan 0s dan sisanya sebagai 1s, atau pemesanan lainnya, kan? $i = 1, \ldots, n$ $N_i$

Z_{i 1}, \dots, Z_{i Y_{i}} = 1

$Z_{i1}, \ldots, Z_{iY_i} = 1$

Z_{i (Y_{i} + 1)}, \dots, Z_{i N_{i}} = 0

$Z_{i(Y_i+1)}, \ldots, Z_{iN_i} = 0$

Y_{i}

$Y_i$

(N_{i} - Y_{i})

$(N_i - Y_i)$

Model kedua Anda mengatakan bahwa dengan model regresi yang sama untuk seperti di atas. Kemungkinan log untuk model ini adalah dan karena cara kami mendefinisikan s kami, ini dapat disederhanakan menjadi yang seharusnya terlihat cukup familiar.

Z_{i j} \sim B e r n o u l l i (p_{i})

$Z_{ij} \sim \mathrm{Bernoulli}(p_i)$

p_{i}

$p_i$

ℓ (β; Z) = \sum_{saya = 1}^{n} \sum_{j = 1}^{N_{saya}} Z_{saya j} \log ({hal}_{saya}) + (1 - Z_{saya j}) \log (1 - {hal}_{saya})

$\ell(\beta; Z) = \sum_{i=1}^n \sum_{j=1}^{N_i} Z_{ij}\log(p_i) + (1-Z_{ij})\log(1-p_i)$

Z_{i j}

$Z_{ij}$

ℓ (β; Y) = \sum_{saya = 1}^{n} Y_{saya} \log ({hal}_{saya}) + (N_{saya} - Y_{saya}) \log (1 - {hal}_{saya})

$\ell(\beta; Y) = \sum_{i=1}^n Y_i \log(p_i) + (N_i - Y_i)\log(1-p_i)$

Untuk mendapatkan taksiran dalam model kedua, kami memaksimalkan ini sehubungan dengan . Satu-satunya perbedaan antara ini dan log-likelihood pertama adalah istilah , yang konstan sehubungan dengan , sehingga tidak mempengaruhi maksimalisasi dan kami akan mendapatkan perkiraan yang sama. $\beta$ $\log {N_i \choose Y_i}$ $\beta$

3) Setiap pengamatan memiliki residu penyimpangan. Dalam model binomial, mereka adalah mana adalah estimasi probabilitas dari model Anda. Perhatikan bahwa model binomial Anda jenuh (0 derajat sisa kebebasan) dan sangat cocok: untuk semua pengamatan, jadi untuk semua .

D_{saya} = 2 [Y_{saya} \log (\frac{Y_{saya} / N_{saya}}{{\hat{hal}}_{saya}}) + (N_{saya} - Y_{saya}) \log (\frac{1 - Y_{saya} / N_{saya}}{1 - {\hat{hal}}_{saya}})]

$D_i = 2\left[Y_i \log \left( \frac{Y_i/N_i}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1-Y_i/N_i}{1-\hat{p}_i} \right)\right]$

{\hat{p}}_{i}

$\hat{p}_i$

{\hat{p}}_{i} = Y_{i} / N_{i}

$\hat{p}_i = Y_i/N_i$

D_{i} = 0

$D_i = 0$

i

$i$

Dalam model Bernoulli, Terlepas dari kenyataan bahwa Anda sekarang akan memiliki residual penyimpangan (bukan seperti dengan data binomial), masing-masing akan berupa atau tergantung pada apakah atau , dan jelas tidak sama dengan yang di atas. Bahkan jika Anda jumlah ini lebih untuk mendapatkan jumlah residu penyimpangan untuk setiap , Anda tidak mendapatkan sama:

D_{saya j} = 2 [Z_{saya j} \log (\frac{Z_{saya j}}{{\hat{hal}}_{saya}}) + (1 - Z_{saya j}) \log (\frac{1 - Z_{saya j}}{1 - {\hat{hal}}_{saya}})]

$D_{ij} = 2\left[Z_{ij} \log \left( \frac{Z_{ij}}{\hat{p}_i} \right) + (1-Z_{ij}) \log \left(\frac{1-Z_{ij}}{1-\hat{p}_i} \right)\right]$

\sum_{i = 1}^{n} N_{i}

$\sum_{i=1}^n N_i$

n

$n$

D_{saya j} = - 2 \log ({\hat{hal}}_{saya})

$D_{ij} = -2\log(\hat{p}_i)$

D_{saya j} = - 2 \log (1 - {\hat{hal}}_{saya})

$D_{ij} = -2\log(1-\hat{p}_i)$

Z_{i j} = 1

$Z_{ij} = 1$

0

$0$

j

$j$

i

$i$

D_{saya} = \sum_{j = 1}^{N_{saya}} D_{saya j} = 2 [Y_{saya} \log (\frac{1}{{\hat{hal}}_{saya}}) + (N_{saya} - Y_{saya}) \log (\frac{1}{1 - {\hat{hal}}_{saya}})]

$D_i = \sum_{j=1}^{N_i} D_{ij} = 2\left[Y_i \log \left( \frac{1}{\hat{p}_i} \right) + (N_i-Y_i) \log \left( \frac{1}{1-\hat{p}_i} \right)\right]$

Fakta bahwa AIC berbeda (tetapi perubahan dalam penyimpangan tidak) kembali ke istilah konstan yang merupakan perbedaan antara kemungkinan log dari kedua model. Saat menghitung penyimpangan, ini dibatalkan karena sama di semua model berdasarkan data yang sama. AIC didefinisikan sebagai dan istilah kombinatorial adalah perbedaan antara s:

SEBUAH saya C = 2 K - 2 ℓ

$AIC = 2K - 2\ell$

ℓ

$\ell$

SEBUAH saya C_{B e r n Hai kamu l l saya} - SEBUAH saya C_{B saya n Hai m saya Sebuah l} = 2 \sum_{saya = 1}^{n} \log (\binom{N_{saya}}{Y_{saya}}) = 9.575

$AIC_{\mathrm{Bernoulli}} - AIC_{\mathrm{Binomial}} = 2\sum_{i=1}^n \log {N_i \choose Y_i} = 9.575$

— Menandai
sumber

Terima kasih atas balasan Anda yang sangat terperinci, Mark! Maaf atas keterlambatan respons saya - Saya sedang berlibur. 3) Mengingat bahwa 2 model memberikan hasil yang berbeda untuk residu penyimpangan dan AIC, mana yang benar atau lebih baik? a) Seperti yang saya pahami, pengamatan dengan residu penyimpangan lebih dari dua dapat mengindikasikan kurangnya kecocokan, sehingga nilai absolut dari residu penyimpangan penting. b) Karena AIC digunakan untuk membandingkan kesesuaian antara model yang berbeda, mungkin tidak ada AIC "benar". Saya hanya akan membandingkan AIC dari 2 model binomial atau 2 model Bernoulli.

— Seorang Ilmuwan

a) Untuk data biner, akan> 2 jika salah satu ( dan ) atau ( dan ). Jadi, bahkan jika model Anda cocok dengan data binomial dengan sempurna untuk vektor kovariat (yaitu , katakanlah), maka s yang telah Anda alokasikan secara sewenang-wenang 1 akan memiliki . Untuk alasan ini, saya pikir residu penyimpangan lebih masuk akal dengan data binomial. Selain itu, penyimpangan itu sendiri untuk data biner tidak memiliki sifat yang biasa ...

D_{i j}

$D_{ij}$

Z_{i j} = 1

$Z_{ij} = 1$

{\hat{p}}_{i} < e^{- 1} = 0.368

$\hat{p}_i < e^{-1} = 0.368$

Z_{i j} = 0

$Z_{ij} = 0$

{\hat{p}}_{i} > 1 - e^{- 1} = 0.632

$\hat{p}_i > 1 - e^{-1} = 0.632$

i

$i$

Y_{i} / N_{i} = {\hat{p}}_{i} < 0.368

$Y_i / N_i = \hat{p}_i < 0.368$

Y_{i}

$Y_i$

Z_{i j}

$Z_{ij}$

D_{i j} > 2

$D_{ij} > 2$

— Tandai

... Tautkan ke info lebih lanjut tentang pernyataan terakhir itu

— Tandai

b) Ya, membandingkan antara model hanya masuk akal ketika data yang digunakan untuk masing-masing model persis sama. Jadi, bandingkan Bernoulli dengan Bernoulli atau binomial dengan binomial.

A I C

$AIC$

— Tandai

Terima kasih, Mark! Balasan bijaksana dan terinci Anda sangat kami hargai!

— Seorang Ilmuwan

Saya hanya ingin memberikan komentar pada paragraf terakhir, “Fakta bahwa AIC berbeda (tetapi perubahan dalam penyimpangan tidak) kembali ke istilah konstan yang merupakan perbedaan antara kemungkinan log dari kedua model. Ketika menghitung perubahan penyimpangan, ini dibatalkan karena sama di semua model berdasarkan data yang sama. "Sayangnya, ini tidak benar untuk perubahan penyimpangan. Penyimpangan tidak termasuk istilah konstan Ex (ekstra konstan) istilah dalam log-kemungkinan untuk data binomial) .Oleh karena itu, perubahan penyimpangan tidak ada hubungannya dengan istilah konstan EX. Penyimpangan membandingkan model yang diberikan dengan model penuh. Fakta bahwa penyimpangan berbeda dari Bernoulli / binary dan pemodelan binomial tetapi perubahan dalam penyimpangan tidak disebabkan oleh perbedaan dalam nilai log-likelihood model penuh. Nilai-nilai ini dibatalkan dalam menghitung perubahan penyimpangan. Oleh karena itu, Bernoulli dan model regresi logistik binomial menghasilkan perubahan penyimpangan yang identik asalkan probabilitas yang diprediksi pij dan pi adalah sama. Bahkan, itu berlaku untuk probit dan fungsi tautan lainnya.

Biarkan lBm dan lBf menunjukkan nilai kemungkinan log dari model pas m dan model penuh f ke data Bernoulli. Penyimpangan itu kemudian

    DB=2(lBf - lBm)=-2(lBm – lBf).

Meskipun lBf adalah nol untuk data biner, kami belum menyederhanakan DB dan menyimpannya apa adanya. Penyimpangan dari pemodelan binomial dengan kovariat yang sama adalah

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

di mana lbf + Ex dan lbm + Ex adalah nilai-nilai log-likelihood oleh model penuh dan m yang dipasang pada data binomial. Istilah ekstra konstan (Kel) menghilang dari sisi kanan Db. Sekarang lihat perubahan penyimpangan dari Model 1 ke Model 2. Dari pemodelan Bernoulli, kami memiliki perubahan dalam penyimpangan

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Demikian pula, perubahan penyimpangan dari pemasangan binomial adalah

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Segera diikuti bahwa perubahan penyimpangan bebas dari kontribusi log-likelihood dari model penuh, lBf dan lbf. Oleh karena itu, kita akan mendapatkan perubahan yang sama dalam penyimpangan, DBC = DbC, jika lBm1 = lbm1 dan lBm2 = lbm2. Kita tahu bahwa inilah yang terjadi di sini dan mengapa kita mendapatkan perubahan penyimpangan yang sama dari pemodelan Bernoulli dan binomial. Perbedaan antara lbf dan lBf mengarah pada penyimpangan yang berbeda.

— Saei
sumber

Apakah mungkin bagi Anda untuk mengedit format jawaban Anda? Sayangnya dalam bentuk ini tidak terlalu mudah dibaca. Saya akan mendorong Anda untuk mengerem teks dalam paragraf dan menambahkan format

T E X

$\TeX$ ke formula. Juga tidak selalu jelas apa arti singkatan yang Anda gunakan.

— Tim

Terima kasih banyak, Tim. Saya tidak terbiasa dengan format TEX. Saya awalnya mengetik di Word, tetapi saya tidak dapat menyalin dan menempel. Saya telah memisahkan persamaan dari teks.

— Saei

Saya tidak yakin apakah Anda salah membaca paragraf tersebut: Saya berkata "AIC berbeda ( tetapi perubahan dalam penyimpangan tidak )", dan sisa paragraf menjelaskan mengapa AIC berbeda antara kedua model. Saya tidak mengklaim bahwa perubahan penyimpangan bergantung pada istilah yang konstan. Sebenarnya, saya berkata, " Ketika menghitung perubahan penyimpangan, ini [istilah konstan] dibatalkan karena sama di semua model berdasarkan data yang sama "

— Mark

Masalahnya adalah bahwa hanya ada satu "istilah konstan" dalam teks dan itu adalah istilah kombinatorial (koefisien binomial). Ketika Anda mengatakan "ini" dibatalkan, itu menyiratkan bahwa istilah konstan termasuk dalam penyimpangan. Perbedaan antara penyimpangan dari model Bernoulli dan binomial adalah kontribusi dari nilai kemungkinan log lbf dari penuh model. Lbf tidak berbeda dengan model binomial berbeda pada data yang sama dan itu dibatalkan saat menghitung perubahan dalam penyimpangan.

— Saei

Ah ok saya mengerti maksud Anda. Saya telah mengedit jawaban saya sesuai, meninggalkan referensi untuk perubahan penyimpangan karena penanya secara khusus menyebutkannya. Perubahan penyimpangan adalah sama karena penyimpangan tidak tergantung pada istilah konstan.

— Tandai