Ketika memperbarui bobot jaringan saraf menggunakan algoritma backpropagation dengan istilah momentum, haruskah tingkat pembelajaran diterapkan pada istilah momentum juga?
Sebagian besar informasi yang dapat saya temukan tentang menggunakan momentum memiliki persamaan yang terlihat seperti ini:
di mana adalah tingkat belajar, dan μ adalah istilah momentum.
Jika suku lebih besar dari suku α maka pada iterasi berikutnya Δ W dari iterasi sebelumnya akan memiliki pengaruh yang lebih besar pada bobot daripada yang sekarang.
Apakah ini tujuan dari istilah momentum? atau haruskah persamaannya terlihat seperti ini?
yaitu. scaling segalanya dengan tingkat belajar?