Saya memiliki sejumlah besar prediktor (lebih dari 43.000) untuk memprediksi variabel dependen yang dapat mengambil 2 nilai (0 atau 1). Jumlah pengamatan lebih dari 45.000. Sebagian besar prediktor adalah unigrams, bigrams, dan trigram kata-kata, sehingga ada tingkat kolinearitas yang tinggi di antara mereka. Ada banyak sparsity di dataset saya juga. Saya menggunakan regresi logistik dari paket glmnet, yang berfungsi untuk jenis dataset yang saya miliki. Masalah saya adalah bagaimana saya bisa melaporkan signifikansi p-value dari para prediktor. Saya memang mendapatkan koefisien beta, tetapi apakah ada cara untuk mengklaim bahwa koefisien beta signifikan secara statistik?
Ini kode saya:
library('glmnet')
data <- read.csv('datafile.csv', header=T)
mat = as.matrix(data)
X = mat[,1:ncol(mat)-1]
y = mat[,ncol(mat)]
fit <- cv.glmnet(X,y, family="binomial")
Pertanyaan lain adalah: Saya menggunakan alpha default = 1, penalti laso yang menyebabkan masalah tambahan bahwa jika dua prediktor adalah collinear, laso akan memilih salah satu dari mereka secara acak dan memberikan bobot beta nol kepada yang lain. Saya juga mencoba dengan ridge penalti (alpha = 0) yang memberikan koefisien yang mirip dengan variabel yang sangat berkorelasi daripada memilih salah satu dari mereka. Namun, model dengan penalti laso memberi saya penyimpangan yang jauh lebih rendah daripada model dengan penalti ridge. Apakah ada cara lain agar saya dapat melaporkan kedua prediktor yang sangat linier?