Kecerdasan buatan gradient-descent

Apakah mean-squared error selalu cembung dalam konteks jaringan saraf?

Berbagai sumber yang saya sebutkan menyebutkan bahwa MSE itu hebat karena cembung. Tapi saya tidak mengerti caranya, terutama dalam konteks jaringan saraf. Katakanlah kita memiliki yang berikut ini: XXX : dataset pelatihan YYY : target ΘΘ\Theta : himpunan parameter modelfΘfΘf_\Theta (model jaringan saraf dengan non-linearitas) Kemudian: MSE(Θ)=(fΘ(X)−Y)2MSE⁡(Θ)=(fΘ(X)−Y)2\operatorname{MSE}(\Theta) = (f_\Theta(X) - …

9 neural-networks math backpropagation gradient-descent

Pertanyaan yang diberi tag «gradient-descent»