Tampilan sering 👀
Di satu sisi, kita dapat menganggap kedua regularisasi sebagai "menyusut bobot" ; L2 meminimalkan norma Euclidean dari bobot, sedangkan L1 meminimalkan norma Manhattan. Mengikuti garis pemikiran ini, kita dapat beralasan bahwa ekuipotensial L1 dan L2 masing-masing berbentuk bola dan berlian, sehingga L1 lebih cenderung mengarah pada solusi yang jarang, seperti yang diilustrasikan dalam Pengenalan Pola Bishop dan Pembelajaran Mesin :
Tampilan Bayesian 👀
Namun, untuk memahami bagaimana prior berhubungan dengan model linier , kita perlu memahami interpretasi Bayes tentang regresi linier biasa . Blogpost Katherine Bailey adalah bacaan yang sangat baik untuk ini. Singkatnya, kami mengasumsikan kesalahan iid yang didistribusikan secara normal dalam model linier kami
y = θ⊤X + ϵ
Nysaya, i = 1 , 2 , … , Nϵk∼ N( 0 , σ)
yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Ternyata ... Estimator kemungkinan maksimum identik dengan meminimalkan kesalahan kuadrat antara nilai output yang diprediksi dan yang sebenarnya berdasarkan asumsi normalitas untuk kesalahan tersebut.
θ^MLE= argmaksθlogP( y| θ)= argminθ∑i = 1n( ysaya- θ⊤xsaya)2
Regularisasi sebagai menempatkan prior pada bobot
Jika kita menempatkan non-seragam sebelum pada bobot regresi linier, estimasi probabilitas a posteriori (MAP) maksimum adalah:
θ^PETA= argmaksθlogP( y| θ)+logP( θ )
P( θ )θ
P( θ )θ
Sekarang kami memiliki pandangan lain tentang mengapa menempatkan Laplace di atas bobot lebih cenderung menyebabkan sparsity: karena distribusi Laplace lebih terkonsentrasi di sekitar nol , bobot kami lebih cenderung menjadi nol.