Dalam konteks jaringan saraf, apa perbedaan antara tingkat belajar dan penurunan berat badan?
Dalam konteks jaringan saraf, apa perbedaan antara tingkat belajar dan penurunan berat badan?
Jawaban:
Tingkat pembelajaran adalah parameter yang menentukan seberapa besar langkah pembaruan mempengaruhi nilai bobot saat ini. Sementara peluruhan berat adalah istilah tambahan dalam aturan pembaruan bobot yang menyebabkan bobot meluruh secara eksponensial ke nol, jika tidak ada pembaruan lain yang dijadwalkan.
Jadi katakanlah kita memiliki fungsi biaya atau kesalahan yang ingin kita perkecil. Keturunan gradien memberitahu kita untuk memodifikasi bobot ke arah penurunan paling curam di : mana adalah tingkat pembelajaran, dan jika itu besar Anda akan memiliki modifikasi bobot yang sesuai dengan (secara umum itu tidak boleh terlalu besar, jika tidak Anda akan melampaui batas minimum lokal dalam fungsi biaya Anda).
Agar secara efektif membatasi jumlah parameter bebas dalam model Anda sehingga untuk menghindari pemasangan yang berlebihan, dimungkinkan untuk mengatur fungsi biaya. Cara mudah untuk melakukannya adalah dengan memperkenalkan Gaussian mean nol sebelum bobot, yang setara dengan mengubah fungsi biaya menjadi . Dalam praktiknya ini menghukum bobot yang besar dan secara efektif membatasi kebebasan dalam model Anda. Parameter regularisasi menentukan bagaimana Anda menukar biaya asli dengan penalti bobot yang besar.
Menerapkan penurunan gradien ke fungsi biaya baru ini, kami memperoleh: Istilah baru berasal dari regularisasi menyebabkan bobot membusuk secara proporsional dengan ukurannya.
Selain jawaban @ mrig (+1), untuk banyak aplikasi praktis jaringan saraf, lebih baik menggunakan algoritma pengoptimalan yang lebih canggih, seperti Levenberg-Marquardt (jaringan berukuran kecil) atau skala penurunan gradien konjugat berskala (sedang-besar) jaringan), karena ini akan jauh lebih cepat, dan tidak perlu mengatur tingkat pembelajaran (kedua algoritma pada dasarnya menyesuaikan tingkat pembelajaran menggunakan kelengkungan serta gradien). Paket atau pustaka jaringan saraf yang baik akan memiliki implementasi dari salah satu metode ini, paket apa pun yang tidak mungkin usang. Saya menggunakan perpustakaan NETLAB untuk MATLAB, yang merupakan bagian dari kit.
Saya istilah sederhana:
learning_rate: Ini mengontrol seberapa cepat atau lambat model jaringan saraf mempelajari masalah.
ref: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay: Ini adalah teknik regularisasi yang digunakan untuk menghindari pemasangan yang berlebihan.
ref: https://metacademy.org/graphs/concepts/weight_decay_neural_networks