Mungkin akan lebih mudah untuk memahami bagaimana regresi bertahap dilakukan dengan melihat semua 15 model lm yang mungkin.
Inilah quickie untuk menghasilkan formula untuk semua 15 kombinasi.
library(leaps)
tmp<-regsubsets(mpg ~ wt + drat + disp + qsec, data=mtcars, nbest=1000, really.big=T, intercept=F)
all.mods <- summary(tmp)[[1]]
all.mods <- lapply(1:nrow(all.mods, function(x)as.formula(paste("mpg~", paste(names(which(all.mods[x,])), collapse="+"))))
head(all.mods)
[[1]]
mpg ~ drat
<environment: 0x0000000013a678d8>
[[2]]
mpg ~ qsec
<environment: 0x0000000013a6b3b0>
[[3]]
mpg ~ wt
<environment: 0x0000000013a6df28>
[[4]]
mpg ~ disp
<environment: 0x0000000013a70aa0>
[[5]]
mpg ~ wt + qsec
<environment: 0x0000000013a74540>
[[6]]
mpg ~ drat + disp
<environment: 0x0000000013a76f68>
Nilai AIC untuk masing-masing model diekstraksi dengan:
all.lm<-lapply(all.mods, lm, mtcars)
sapply(all.lm, extractAIC)[2,]
[1] 97.98786 111.77605 73.21736 77.39732 63.90843 77.92493 74.15591 79.02978 91.24052 71.35572
[11] 63.89108 65.90826 78.68074 72.97352 65.62733
Mari kita kembali ke langkah-regresi Anda. Nilai extractAIC untuk lm (mpg ~ wt + drat + disp + qsec) adalah 65.63 (setara dengan model 15 dalam daftar di atas).
Jika model menghapus disp (-disp), maka lm (mpg ~ wt + drat + qsec) adalah 63.891 (atau model 11 dalam daftar).
Jika model tidak menghapus apa pun (tidak ada), maka AIC masih 65,63
Jika model menghapus qsec (-qsec), maka lm (mpg ~ wt + drat + disp) adalah 65,908 (model 12).
dll.
Pada dasarnya ringkasan mengungkapkan penghapusan bertahap satu istilah dari model lengkap Anda dan membandingkan nilai extractAIC, dengan mendaftarkannya dalam urutan menaik. Karena nilai AIC yang lebih kecil lebih cenderung menyerupai model KEBENARAN, langkah mempertahankan model (-disp) di langkah pertama.
Proses ini diulangi lagi, tetapi dengan model retained (-disp) sebagai titik awal. Istilah dapat dikurangkan ("mundur") atau dikurangkan / ditambahkan ("keduanya") untuk memungkinkan perbandingan model. Karena nilai AIC terendah dalam perbandingan masih model (-disp), proses berhenti dan model yang dihasilkan diberikan.
Sehubungan dengan permintaan Anda: "Apa fungsi yang ingin dicapai dengan menambahkan + disp lagi dalam pemilihan bertahap?", Dalam hal ini, itu tidak benar-benar melakukan apa-apa, karena model terbaik di semua 15 model adalah model 11 , yaitu lm (mpg ~ wt + drat + qsec).
Namun, dalam model rumit dengan sejumlah besar prediktor yang membutuhkan banyak langkah untuk menyelesaikannya, penambahan kembali istilah yang dihapus pada awalnya sangat penting untuk memberikan cara yang paling lengkap untuk membandingkan persyaratan.
Semoga ini bisa membantu.