Saya sudah punya ide tentang pro dan kontra regresi ridge dan LASSO.
Untuk LASSO, istilah penalti L1 akan menghasilkan vektor koefisien jarang, yang dapat dilihat sebagai metode pemilihan fitur. Namun, ada beberapa batasan untuk LASSO. Jika fitur memiliki korelasi tinggi, LASSO hanya akan memilih salah satunya. Selain itu, untuk masalah di mana > n , LASSO akan memilih paling banyak n parameter ( n dan p masing-masing adalah jumlah pengamatan dan parameter). Ini membuat LASSO secara empiris metode suboptimal dalam hal prediktabilitas dibandingkan dengan regresi ridge.
Untuk regresi ridge, ia menawarkan prediktabilitas yang lebih baik secara umum. Namun, penafsirannya tidak sebagus LASSO.
Penjelasan di atas sering dapat ditemukan dalam buku teks dalam pembelajaran mesin / data mining. Namun, saya masih bingung tentang dua hal:
Jika kita menormalkan rentang fitur (katakan antara 0 dan 1, atau dengan nol mean dan varians unit), dan menjalankan regresi ridge, kita masih dapat memiliki gagasan tentang fitur penting dengan mengurutkan nilai absolut dari koefisien (fitur yang paling penting memiliki nilai koefisien absolut tertinggi). Meskipun kami tidak memilih fitur secara eksplisit, interpretabilitas tidak hilang dengan menggunakan regresi ridge. Pada saat yang sama, kita masih dapat mencapai kekuatan prediksi yang tinggi. Lalu mengapa kita membutuhkan LASSO? Apakah saya melewatkan sesuatu di sini?
Apakah LASSO lebih disukai karena sifat pemilihan fiturnya? Menurut pemahaman saya, alasan mengapa kita memerlukan pemilihan fitur adalah kemampuan untuk menggeneralisasi dan kemudahan komputasi.
Untuk kemudahan perhitungan, kami tidak ingin memasukkan semua 1 juta fitur ke dalam model kami jika kami melakukan beberapa tugas NLP, jadi kami membuang beberapa fitur yang jelas tidak berguna terlebih dahulu untuk mengurangi biaya komputasi. Namun, untuk LASSO, kami hanya dapat mengetahui hasil pemilihan fitur (vektor jarang) setelah kami memasukkan semua data ke dalam model kami, jadi kami tidak mendapat manfaat dari LASSO dalam hal mengurangi biaya komputasi. Kami hanya dapat membuat prediksi sedikit lebih cepat karena sekarang kami hanya memberi makan subset fitur (misalnya 500 dari 1 juta) ke dalam model kami untuk menghasilkan hasil yang diprediksi.
Jika LASSO lebih disukai karena kemampuannya untuk menggeneralisasi, maka kita juga dapat mencapai tujuan yang sama menggunakan regresi ridge (atau jenis regularisasi lainnya). Mengapa kita perlu LASSO (atau jaring elastis) lagi? Mengapa kita tidak bisa tetap berpegang teguh pada regresi?
Bisakah seseorang menjelaskan beberapa hal tentang ini? Terima kasih!