Bagaimana metode ridge, LASSO, dan elasticnet regularisasi dibandingkan? Apa kelebihan dan kekurangan masing-masing? Makalah teknis yang baik, atau catatan kuliah akan dihargai juga.
Bagaimana metode ridge, LASSO, dan elasticnet regularisasi dibandingkan? Apa kelebihan dan kekurangan masing-masing? Makalah teknis yang baik, atau catatan kuliah akan dihargai juga.
Jawaban:
Dalam buku The Elements of Statistics Learning , Hastie et al. memberikan perbandingan yang sangat mendalam dan menyeluruh dari teknik penyusutan ini. Buku ini tersedia online ( pdf ). Perbandingan dilakukan di bagian 3.4.3, halaman 69.
Perbedaan utama antara Lasso dan Ridge adalah istilah hukuman yang mereka gunakan. Ridge menggunakan istilah hukuman yang membatasi ukuran vektor koefisien. Lasso menggunakan penalti L 1 yang memaksakan sparsity di antara koefisien dan dengan demikian, membuat model yang dipasang lebih dapat ditafsirkan. Elasticnet diperkenalkan sebagai kompromi antara kedua teknik ini, dan memiliki penalti yang merupakan campuran dari norma L 1 dan L 2 .
Untuk meringkas, berikut adalah beberapa perbedaan yang menonjol antara Lasso, Ridge dan Elastic-net:
Saya sangat menyarankan Anda untuk melihat Pengantar buku pembelajaran statistik (Tibshirani et. Al, 2013).
Alasan untuk ini adalah bahwa Elemen buku pembelajaran statistik ditujukan untuk individu dengan pelatihan lanjutan dalam ilmu matematika. Dalam kata pengantar untuk ISL, penulis menulis:
Sebuah Pengantar statistik Belajar muncul dari kebutuhan yang dirasakan untuk perawatan yang lebih luas dan kurang teknis topik ini. [...]
Pengantar Pembelajaran Statistik cocok untuk mahasiswa tingkat sarjana atau master dalam bidang statistik atau bidang kuantitatif terkait atau untuk individu dalam disiplin ilmu lain yang ingin menggunakan alat pembelajaran statistik untuk menganalisis data mereka.
Jawaban di atas sangat jelas dan informatif. Saya ingin menambahkan satu poin minor dari perspektif statistik. Ambil regresi ridge sebagai contoh. Ini merupakan perpanjangan dari regresi kuadrat terkecil ordinal untuk menyelesaikan masalah multikolinieritas ketika ada banyak fitur yang berkorelasi. Jika regresi linier adalah
Y=Xb+e
Solusi persamaan normal untuk regresi linier berganda
b=inv(X.T*X)*X.T*Y
Solusi persamaan normal untuk regresi ridge adalah
b=inv(X.T*X+k*I)*X.T*Y.
Ini adalah penaksir yang bias untuk b dan kita selalu dapat menemukan istilah penalti k yang akan membuat kesalahan kuadrat rata-rata dari regresi Ridge lebih kecil dari pada regresi OLS.
Untuk LASSO dan Elastic-Net, kami tidak dapat menemukan solusi analitik seperti itu.