Saya memiliki dataset dengan 9 variabel independen kontinu. Saya mencoba untuk memilih antara variabel-variabel ini sesuai model untuk persentase tunggal (tergantung) variabel, Score
. Sayangnya, saya tahu akan ada kolinearitas yang serius antara beberapa variabel.
Saya sudah mencoba menggunakan stepAIC()
fungsi dalam R untuk pemilihan variabel, tetapi metode itu, anehnya, tampaknya sensitif terhadap urutan variabel yang tercantum dalam persamaan ...
Ini kode R saya (karena ini adalah data persentase, saya menggunakan transformasi logit untuk Skor):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Untuk beberapa alasan, saya menemukan bahwa variabel-variabel yang terdaftar di awal persamaan akhirnya dipilih oleh stepAIC()
fungsi, dan hasilnya dapat dimanipulasi dengan mendaftar, misalnya,Var9
pertama (mengikuti tilde).
Apa cara yang lebih efektif (dan kurang kontroversial) dalam pemasangan model di sini? Saya sebenarnya tidak mati-matian dalam menggunakan regresi linier: satu-satunya hal yang saya inginkan adalah dapat memahami mana dari 9 variabel yang benar-benar mendorong variasi dalam Score
variabel. Lebih disukai, ini akan menjadi beberapa metode yang memperhitungkan potensi kuat untuk kolinearitas dalam 9 variabel ini.
Score
variabel", yang merupakan kalimat yang mungkin terlalu saya fokuskan. Di hadapan kolinearitas yang kuat, laso tidak akan membantu dengan itu, setidaknya dalam interpretasi yang lebih ketat dari komentar OP.