Posting ini mengikuti yang ini: Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?
Ini pertanyaan saya:
Sejauh yang saya tahu, regularisasi ridge menggunakan -norm (jarak euclidean). Tetapi mengapa kita menggunakan kuadrat dari norma ini? (aplikasi langsung akan menghasilkan dengan akar kuadrat dari jumlah beta kuadrat).ℓ 2
Sebagai perbandingan, kami tidak melakukan ini untuk LASSO, yang menggunakan -norm untuk mengatur. Tapi di sini itu norma "nyata" ℓ 1 (hanya jumlah kuadrat dari nilai absolut beta, dan bukan kuadrat dari jumlah ini).
Dapatkah seseorang membantu saya mengklarifikasi?