Untuk menempatkan kesetaraan lebih tepat:
Mengoptimalkan bobot model untuk meminimalkan fungsi kerugian kesalahan kuadrat dengan regularisasi L2 setara dengan menemukan bobot yang paling mungkin di bawah distribusi posterior yang dievaluasi menggunakan aturan Bayes, dengan bobot Gaussian independen rata-rata nol sebelum
Bukti:
Fungsi kerugian seperti dijelaskan di atas akan diberikan oleh
L=[∑n=1N(y(n)−fw(x(n)))2]Originallossfunction+λ∑i=1Kw2iL2loss
Perhatikan bahwa distribusi untuk Gaussian multivarian adalah
N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Menggunakan aturan Bayes, kita memilikinya
p(w|D)=p(D|w)p(w)p(D)∝p(D|w)p(w)∝[∏nNN(y(n);fw(x(n)),σ2y)]N(w;0,σ2wI)∝∏nNN(y(n);fw(x(n)),σ2y)∏i=1KN(wi;0,σ2w)
Di mana kita dapat membagi Guassian multi-dimensi menjadi produk, karena kovarians adalah kelipatan dari matriks identitas.
Ambil probabilitas log negatif
−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Tentu saja kita dapat menghilangkan konstanta, dan mengalikannya dengan jumlah berapa pun tanpa secara fundamental memengaruhi fungsi kerugian. (konstan tidak melakukan apa-apa, perkalian secara efektif menskalakan tingkat pembelajaran. Tidak akan mempengaruhi lokasi minima) Jadi kita dapat melihat bahwa probabilitas log negatif dari distribusi posterior adalah fungsi kerugian setara dengan fungsi kehilangan kesalahan kuadrat teregulasi L2 yang diatur.
Ekuivalensi ini bersifat umum dan berlaku untuk fungsi bobot parameter apa pun - bukan hanya regresi linier seperti yang tampaknya tersirat di atas.
D dimensionkasus regresi linier, dapatbetadansigmamemiliki solusi eksplisit? Saya membaca PRML, dan menemukan persamaan (1.67) di halaman 30 dan tidak tahu bagaimana menyelesaikannya. Dalam kemungkinan maksimum, kami memecahkanbetadan kemudiansigmadengan mengatur gradien ke nol. Dalam kuadrat terkecil yang diatur, sejak param reqularisasilambdadiketahui, kami menyelesaikannyabetasecara langsung. Tetapi jika kita langsung memecahkan MAP, apa urutan pemecahanbeta,sigma? Bisakah mereka memiliki solusi eksplisit atau kita harus menggunakan proses berulang?