Dalam minggu 3 catatan kuliah dari kelas Coursera Machine Learning Andrew Ng , istilah ditambahkan ke fungsi biaya untuk melaksanakan regularisasi:
J+( θ ) = J( θ ) + λ2 m∑j = 1nθ2j
Catatan kuliah mengatakan:
Kami juga dapat mengatur semua parameter theta kami dalam satu penjumlahan:
m i nθ 12 m [ ∑i = 1m( hθ( x( i )) - y( i ))2+ λ ∑ j = 1nθ2j]
12 m kemudian diterapkan pada istilah regularisasi jaringan saraf :
Ingatlah bahwa fungsi biaya untuk regresi logistik yang diatur adalah:
J( θ ) = - 1m∑i = 1m[ y( i ) catatan( hθ( x( i )) ) + ( 1 - y( i )) log ( 1 - jamθ( x( i )) ) ] + λ2 m∑j = 1nθ2j
Untuk jaringan saraf, ini akan menjadi sedikit lebih rumit:
J( Θ ) = - 1m∑i = 1m∑k = 1K[ y( i )kcatatan( ( hΘ( x( i )) )k) + ( 1 - y( i )k) log( 1 - ( hΘ( x( i )) )k) ]+ λ2 m∑l = 1L - 1∑i = 1sl∑j = 1sl + 1( Θ( l )j , aku)2
- Mengapa setengah konstan digunakan di sini? Sehingga dibatalkan dalam turunan ?J′
- Mengapa pembagian dengan contoh pelatihan? Bagaimana jumlah contoh pelatihan mempengaruhi banyak hal?m