Pemilihan model LASSO dan maju / mundur keduanya memiliki kekuatan dan keterbatasan. Tidak ada rekomendasi jauh yang bisa dibuat. Simulasi selalu dapat dieksplorasi untuk mengatasi hal ini.
Keduanya dapat dipahami dalam arti dimensionalitas: mengacu pada jumlah parameter model dan jumlah pengamatan. Jika Anda dapat menyesuaikan model menggunakan pemilihan model mundur , Anda mungkin tidak memiliki . Dalam hal itu, model "pas terbaik" adalah yang menggunakan semua parameter ... ketika divalidasi secara internal! Ini hanya masalah overfitting.halnp ≫ n
Overfitting diperbaiki menggunakan split sample cross validation (CV) untuk evaluasi model. Karena Anda tidak menggambarkan ini, saya menganggap Anda tidak melakukannya. Tidak seperti pemilihan model bertahap, LASSO menggunakan parameter penyetelan untuk menghukum jumlah parameter dalam model. Anda dapat memperbaiki parameter tuning, atau menggunakan proses berulang yang rumit untuk memilih nilai ini. Secara default , LASSO melakukan yang terakhir. Ini dilakukan dengan CV untuk meminimalkan MSE prediksi. Saya tidak mengetahui adanya implementasi pemilihan model bertahap yang menggunakan teknik canggih seperti itu, bahkan BIC sebagai kriteria akan menderita dari bias validasi internal. Menurut akun saya, itu secara otomatis memberi LASSO leverage atas pemilihan model bertahap "out-of-the-box".
Terakhir, pemilihan model bertahap dapat memiliki kriteria yang berbeda untuk memasukkan / tidak termasuk regresi yang berbeda. Jika Anda menggunakan nilai-p untuk uji Wald parameter model tertentu atau model yang dihasilkan R ^ 2, Anda tidak akan melakukannya dengan baik, sebagian besar karena bias validasi internal (sekali lagi, dapat diperbaiki dengan CV). Saya merasa mengejutkan bahwa ini masih merupakan cara model-model tersebut cenderung diimplementasikan. AIC atau BIC adalah kriteria yang jauh lebih baik untuk pemilihan model.
Ada sejumlah masalah dengan masing-masing metode. Masalah pemilihan model stepwise jauh lebih baik dipahami, dan jauh lebih buruk daripada LASSO. Masalah utama yang saya lihat dengan pertanyaan Anda adalah bahwa Anda menggunakan alat pemilihan fitur untuk mengevaluasi prediksi . Mereka adalah tugas yang berbeda. LASSO lebih baik untuk pemilihan fitur atau pemilihan model yang jarang. Regresi Ridge dapat memberikan prediksi yang lebih baik karena menggunakan semua variabel.
Kekuatan besar LASSO adalah bahwa ia dapat memperkirakan model di mana , seperti halnya kasus maju (tetapi tidak mundur) regresi bertahap. Dalam kedua kasus, model ini dapat efektif untuk prediksi hanya ketika ada beberapa prediktor yang sangat kuat. Jika hasil lebih baik diprediksi oleh banyak prediktor lemah, maka ridge regresi atau mengantongi / meningkatkan akan mengungguli kedua bertahap regresi maju dan Lasso oleh tembakan panjang. LASSO jauh lebih cepat daripada memajukan regresi bertahap.p ≫ n
Jelas ada banyak tumpang tindih antara pemilihan fitur dan prediksi, tetapi saya tidak pernah memberi tahu Anda tentang seberapa baik kunci pas berfungsi sebagai palu. Secara umum, untuk prediksi dengan sejumlah koefisien model dan , saya lebih suka LASSO daripada meneruskan pemilihan model bertahap.p ≫ n