Saya ingin mencari prediktor untuk variabel dependen kontinu dari 30 variabel independen. Saya menggunakan regresi Lasso seperti yang diterapkan dalam paket glmnet di R. Berikut adalah beberapa kode dummy:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Pertanyaan saya adalah bagaimana menafsirkan output:
Apakah benar mengatakan bahwa dalam hasil akhir semua prediktor yang menunjukkan koefisien berbeda dari nol terkait dengan variabel dependen?
Apakah itu merupakan laporan yang cukup dalam konteks publikasi jurnal? Atau itu diharapkan untuk memberikan statistik uji untuk signifikansi dari koefisien? (Konteksnya adalah genetika manusia)
Apakah masuk akal untuk menghitung nilai p atau statistik uji lainnya untuk mengklaim signifikansi? Bagaimana itu mungkin? Apakah prosedur diimplementasikan dalam R?
Apakah plot regresi sederhana (titik data diplot dengan kecocokan linear) untuk setiap prediktor menjadi cara yang cocok untuk memvisualisasikan data ini?
Mungkin seseorang dapat memberikan beberapa contoh mudah dari artikel yang diterbitkan yang menunjukkan penggunaan Lasso dalam konteks beberapa data nyata & bagaimana melaporkannya dalam jurnal?
cv
untuk langkah prediksi juga?