Saat melatih jaringan saraf menggunakan algoritma back-propagation, metode gradient descent digunakan untuk menentukan pembaruan bobot. Pertanyaan saya adalah: Daripada menggunakan metode gradient descent untuk secara perlahan menemukan titik minimum sehubungan dengan bobot tertentu, mengapa kita tidak mengatur turunan , dan temukan nilai bobot yang meminimalkan kesalahan?w
Juga, mengapa kita yakin bahwa fungsi kesalahan dalam back-propagation akan menjadi minimum? Tidak bisakah ternyata fungsi kesalahan maksimum? Apakah ada properti khusus dari fungsi squashing yang menjamin bahwa jaringan dengan sejumlah node tersembunyi dengan bobot sewenang-wenang dan vektor input akan selalu memberikan fungsi kesalahan yang memiliki beberapa minimum?