Penyimpangan dan GLM
Secara formal, seseorang dapat melihat penyimpangan sebagai semacam jarak antara dua model probabilistik; dalam konteks GLM, itu berjumlah dua kali rasio log dari kemungkinan antara dua model bersarang ℓ1/ℓ0 mana ℓ0 adalah model "lebih kecil"; yaitu, pembatasan linear pada parameter model (lih. Neyman-Pearson lemma ), seperti yang dikatakan @suncoolsu. Dengan demikian, dapat digunakan untuk melakukan perbandingan model . Ini juga dapat dilihat sebagai generalisasi dari RSS yang digunakan dalam estimasi OLS (ANOVA, regresi), karena ia memberikan ukuran good-of-fit dari model yang dievaluasi bila dibandingkan dengan model nol (intersep saja). Ini bekerja dengan LM juga:
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
R2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Sekarang, lihat penyimpangannya:
> deviance(lm.res)
[1] 98.66754
Bahkan, untuk model linier, penyimpangan sama dengan RSS (Anda mungkin ingat bahwa perkiraan OLS dan ML bertepatan dalam kasus seperti itu).
Penyimpangan dan CART
nipiknikpikD
Di=−2∑kniklog(pik),
D+α#(T)#(T)TD1−∑kp2ik
j
Di=∑j(yj−μi)2,
N(μi,σ2)DDirpart
residuals()
fungsi untuk rpart
objek, di mana "residu penyimpangan" dihitung sebagai akar kuadrat dari minus dua kali logaritma model pas.
Pengantar partisi rekursif menggunakan rutinitas rpart , oleh Atkinson dan Therneau, juga merupakan awal yang baik. Untuk ulasan yang lebih umum (termasuk mengantongi), saya akan merekomendasikan