Bagaimana cara kerja istilah momentum untuk algoritma backpropagation?

Ketika memperbarui bobot jaringan saraf menggunakan algoritma backpropagation dengan istilah momentum, haruskah tingkat pembelajaran diterapkan pada istilah momentum juga?

Sebagian besar informasi yang dapat saya temukan tentang menggunakan momentum memiliki persamaan yang terlihat seperti ini:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

di mana adalah tingkat belajar, dan adalah istilah momentum. $\alpha$ $\mu$

Jika suku lebih besar dari suku maka pada iterasi berikutnya dari iterasi sebelumnya akan memiliki pengaruh yang lebih besar pada bobot daripada yang sekarang. $\mu$ $\alpha$ $\Delta W$

Apakah ini tujuan dari istilah momentum? atau haruskah persamaannya terlihat seperti ini?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

yaitu. scaling segalanya dengan tingkat belajar?

machine-learning neural-networks

— guskenny83
sumber

$n$ $W_k$ $i$ $W_k$

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ $\frac{\partial E}{\partial W_k}$ $W_k$

Pengenalan laju momentum memungkinkan pelemahan osilasi dalam gradient descent. Ide geometris di balik ide ini mungkin paling baik dipahami dalam hal analisis eigenspace dalam kasus linear. Jika rasio antara nilai eigen terendah dan terbesar adalah besar maka melakukan penurunan gradien lambat bahkan jika tingkat pembelajaran besar karena pengkondisian matriks. Momentum ini memperkenalkan keseimbangan dalam pembaruan antara vektor eigen yang terkait dengan nilai eigen yang lebih rendah dan lebih besar.

Untuk lebih jelasnya saya merujuk

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— nico
sumber

Apa arti underbrace?

— David Richerby

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

Apa yang Anda maksud dengan "variasi kerugian"? Apakah itu seperti "variasi dalam kesalahan"?

— starbeamrainbowlabs

Itu tidak lain berarti turunan dari kesalahan sehubungan dengan bobot.

— nico