(Dalam) jaringan saraf memiliki banyak parameter . Ini memiliki beberapa implikasi:
Pertama, itu semacam aturan metode urutan yang lebih tinggi hanya karena menghitung Goni dan turunan yang lebih tinggi menjadi tidak mungkin. Di domain lain, ini mungkin pendekatan yang lebih baik daripada tweak apa pun untuk SGD.
Kedua, meskipun SGD luar biasa , ia cenderung lambat secara praktis. Varian SGD yang ditingkatkan ini terutama memungkinkan pelatihan yang lebih cepat, sementara berpotensi kehilangan beberapa properti bagus SGD . Di domain lain, waktu pelatihan SGD mungkin bukan hambatan, jadi peningkatan yang diperoleh dengan mempercepatnya mungkin dapat diabaikan.
Pelatihan (mendalam) jaringan saraf adalah optimasi non-cembung dan saya tidak menyadari hasil relaksasi cembung yang signifikan di lapangan. Tidak seperti bidang lain, jaringan saraf tidak berfokus pada solusi optimal yang terbukti secara global, yang mengarah ke investasi lebih banyak upaya dalam meningkatkan sifat-sifat permukaan kerugian dan traversal selama optimasi.
Di bidang lain, menggunakan relaksasi cembung dan mendapatkan solusi optimal secara global mungkin menjadi pusat perhatian daripada algoritma optimasi, karena begitu masalah didefinisikan sebagai masalah cembung, pilihan algoritma optimasi tidak dapat meningkatkan kualitas solusi. .