Perkiraan urutan kedua dari fungsi kehilangan (buku pembelajaran Deep, 7.33)

Dalam buku Goodfellow (2016) tentang pembelajaran yang mendalam, ia berbicara tentang kesetaraan dari berhenti dini untuk regularisasi L2 ( https://www.deeplearningbook.org/contents/regularization.html halaman 247).

Perkiraan kuadrat dari fungsi biaya $j$ diberikan oleh:

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

$H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative

— stevew
sumber

Mereka berbicara tentang bobot secara optimal:

Kita dapat memodelkan fungsi biaya dengan pendekatan kuadratik di sekitar nilai bobot optimal secara empiris dengan $J$ $w^∗$

Pada titik itu, turunan pertama adalah nol — istilah tengahnya ditinggalkan begitu saja.

— Jan Kukacka
sumber