Regresi LASSO menyusutkan koefisien ke nol, sehingga memberikan pemilihan model yang efektif. Saya percaya bahwa dalam data saya ada interaksi yang bermakna antara kovariat nominal dan kontinu. Namun tidak harus, 'efek utama' dari model yang sebenarnya bermakna (bukan nol). Tentu saja saya tidak tahu ini karena model yang sebenarnya tidak diketahui. Tujuan saya adalah menemukan model yang benar dan memprediksi hasilnya sedekat mungkin.
Saya telah belajar bahwa pendekatan klasik untuk membangun model akan selalu menyertakan efek utama sebelum interaksi dimasukkan. Jadi tidak mungkin ada model tanpa efek utama dari dua kovariat dan jika ada interaksi kovariat dalam model yang sama. The fungsi dalam akibatnya hati-hati menyeleksi hal Model (misalnya berdasarkan mundur atau maju AIC) taat aturan ini.step
R
LASSO tampaknya bekerja secara berbeda. Karena semua parameter dikenakan sanksi, maka tanpa ragu-ragu dapat terjadi bahwa efek utama menyusut ke nol sedangkan interaksi model terbaik (misalnya lintas-divalidasi) adalah tidak-nol. Ini saya menemukan khususnya untuk data saya ketika menggunakan R
's glmnet
paket.
Saya menerima kritik berdasarkan aturan pertama yang dikutip di atas, yaitu model Lasso yang divalidasi silang akhir saya tidak termasuk persyaratan efek utama yang sesuai dari beberapa interaksi yang tidak nol. Namun aturan ini agaknya aneh dalam konteks ini. Apa yang menjadi pertanyaan adalah apakah parameter dalam model yang benar adalah nol. Mari kita asumsikan itu tetapi interaksi itu bukan nol, maka LASSO akan mengidentifikasi ini mungkin, sehingga menemukan model yang benar. Bahkan nampaknya prediksi dari model ini akan lebih tepat karena model tersebut tidak mengandung efek utama true-zero, yang secara efektif merupakan variabel noise.
Bolehkah saya membantah kritik berdasarkan alasan ini atau haruskah saya berhati-hati agar LASSO memasukkan efek utama sebelum masa interaksi?