Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE".
Saya mengerti mengapa laso diinginkan: ini menghasilkan solusi yang jarang karena menyusut banyak koefisien menjadi 0, menghasilkan model yang sederhana dan dapat ditafsirkan. Tapi saya tidak mengerti bagaimana itu bisa mengungguli ridge ketika hanya prediksi yang menarik (yaitu bagaimana mendapatkan MSE yang jauh lebih rendah dalam contoh?).
Dengan punggungan, jika banyak prediktor hampir tidak mempengaruhi respons (dengan beberapa prediktor memiliki efek besar), bukankah koefisiennya akan menyusut menjadi sejumlah kecil yang mendekati nol ... menghasilkan sesuatu yang sangat mirip dengan laso ? Jadi mengapa model akhir memiliki kinerja yang lebih buruk daripada laso?