Pearson VS Deviance Residuals dalam regresi logistik

Saya tahu bahwa residual Pearson terstandarisasi diperoleh dengan cara probabilistik tradisional:

r_{i} = \frac{y_{i} - π_{i}}{\sqrt{π_{i} (1 - π_{i})}}

$r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}}$

dan Deviance Residuals diperoleh melalui cara yang lebih statistik (kontribusi setiap titik terhadap kemungkinan):

d_{i} = s_{i} \sqrt{- 2 [y_{i} \log \hat{π_{i}} + (1 - y_{i}) \log (1 - π_{i})]}

$d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]}$

di mana = 1 jika = 1 dan = -1 jika = 0. $s_i$ $y_i$ $s_i$ $y_i$

Dapatkah Anda menjelaskan kepada saya, secara intuitif, bagaimana menafsirkan rumus residu penyimpangan?

Apalagi, jika saya ingin memilih satu, mana yang lebih cocok dan mengapa?

BTW, beberapa referensi mengklaim bahwa kami memperoleh residu penyimpangan berdasarkan istilah

- \frac{1}{2} {r_{i}}^{2}

$-\frac{1}{2}{r_i}^2$

di mana $r_i$ disebutkan di atas.

— Jack Shi
sumber

Setiap pikiran akan dihargai

— Jack Shi

Ketika Anda mengatakan "beberapa referensi" ... referensi mana, dan bagaimana mereka melakukannya?

— Glen_b -Reinstate Monica

Regresi logistik berupaya memaksimalkan fungsi kemungkinan log

$LL = \sum^k \ln(P_i) + \sum^r \ln(1-P_i)$

$P_i$ $\hat Y=1$ $k$ $Y=1$ $r$ $Y=0$

Ekspresi itu sama dengan

$LL = ({\sum^k d_i^2} + {\sum^r d_i^2})/-2$

karena residu penyimpangan suatu kasus didefinisikan sebagai:

$d_i = \begin{cases} \sqrt{-2\ln(P_i)} &\text{if } Y_i=1\\ -\sqrt{-2\ln(1-P_i)} &\text{if } Y_i=0\\ \end{cases}$

Dengan demikian, regresi logistik biner berusaha langsung untuk meminimalkan jumlah residu penyimpangan kuadrat. Ini adalah residu penyimpangan yang tersirat dalam algoritma ML regresi.

Statistik Chi-sq dari kecocokan model adalah , di mana model penuh berisi prediktor dan model yang dikurangi tidak. $2(LL_\text{full model} - LL_\text{reduced model})$

— ttnphns
sumber