Saya ingin memilih model menggunakan regsubsets()
. Saya memiliki kerangka data yang disebut olympiadaten (data diunggah: http://www.sendspace.com/file/8e27d0 ). Saya pertama-tama melampirkan kerangka data ini dan kemudian mulai menganalisis, kode saya adalah:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
tangkapan layar plot:
Masalahnya adalah sekarang, bahwa saya ingin mencocokkan model terbaik lagi "secara manual" dan melihatnya, tetapi nilai R yang disesuaikan kuadrat tidak sama dengan dalam output regsubsets? Ini juga merupakan kasus untuk model lain, misalnya ketika saya melakukan model paling sederhana dalam grafik:
summary(lm(Gesamt~ExpHealth))
Grafik mengatakan, seharusnya memiliki R kuadrat yang disesuaikan sekitar 0,14, tetapi ketika saya melihat output, saya mendapatkan nilai 0,06435.
Ini adalah output dari summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Saya tidak tahu apa yang mungkin saya lakukan salah, bantuan apa pun akan dihargai.
Dan yang tak kalah pentingnya, beberapa pertanyaan lagi:
- Apa perbedaan antara memilih model oleh AIC dan oleh adj. R kuadrat?
- Keduanya mengukur kecocokan dan mengenali jumlah variabel, jadi bukan model terbaik yang dipilih oleh AIC juga model dengan adj tertinggi. r kuadrat?
- Jadi, apakah
regsubsets()
perintah menghitung masing-masing model dan menunjukkan dua terbaik (nbest=2
) dari masing-masing ukuran? - Jika demikian, apakah saya benar-benar mendapatkan model 'terbaik'?
- Dan ketika saya melakukan AIC menggunakan seleksi mundur (dimulai dengan model yang berisi semua variabel), apakah ini juga berakhir dengan model yang sama yang
regsubsets()
mengatakan yang terbaik?