Untuk menempatkan kesetaraan lebih tepat:
Mengoptimalkan bobot model untuk meminimalkan fungsi kerugian kesalahan kuadrat dengan regularisasi L2 setara dengan menemukan bobot yang paling mungkin di bawah distribusi posterior yang dievaluasi menggunakan aturan Bayes, dengan bobot Gaussian independen rata-rata nol sebelum
Bukti:
Fungsi kerugian seperti dijelaskan di atas akan diberikan oleh
L=[∑n=1N(y(n)−fw(x(n)))2]Originallossfunction+λ∑i=1Kw2iL2loss
Perhatikan bahwa distribusi untuk Gaussian multivarian adalah
N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Menggunakan aturan Bayes, kita memilikinya
p(w|D)=p(D|w)p(w)p(D)∝p(D|w)p(w)∝[∏nNN(y(n);fw(x(n)),σ2y)]N(w;0,σ2wI)∝∏nNN(y(n);fw(x(n)),σ2y)∏i=1KN(wi;0,σ2w)
Di mana kita dapat membagi Guassian multi-dimensi menjadi produk, karena kovarians adalah kelipatan dari matriks identitas.
Ambil probabilitas log negatif
−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Tentu saja kita dapat menghilangkan konstanta, dan mengalikannya dengan jumlah berapa pun tanpa secara fundamental memengaruhi fungsi kerugian. (konstan tidak melakukan apa-apa, perkalian secara efektif menskalakan tingkat pembelajaran. Tidak akan mempengaruhi lokasi minima) Jadi kita dapat melihat bahwa probabilitas log negatif dari distribusi posterior adalah fungsi kerugian setara dengan fungsi kehilangan kesalahan kuadrat teregulasi L2 yang diatur.
Ekuivalensi ini bersifat umum dan berlaku untuk fungsi bobot parameter apa pun - bukan hanya regresi linier seperti yang tampaknya tersirat di atas.
D dimension
kasus regresi linier, dapatbeta
dansigma
memiliki solusi eksplisit? Saya membaca PRML, dan menemukan persamaan (1.67) di halaman 30 dan tidak tahu bagaimana menyelesaikannya. Dalam kemungkinan maksimum, kami memecahkanbeta
dan kemudiansigma
dengan mengatur gradien ke nol. Dalam kuadrat terkecil yang diatur, sejak param reqularisasilambda
diketahui, kami menyelesaikannyabeta
secara langsung. Tetapi jika kita langsung memecahkan MAP, apa urutan pemecahanbeta
,sigma
? Bisakah mereka memiliki solusi eksplisit atau kita harus menggunakan proses berulang?