Memperluas jawaban @Dikran Marsupial ....
Anna Choromanska dan rekan-rekannya di kelompok Yan LeCunn di NYU, mengatasinya dalam makalah AISTATS 2014 mereka "The Loss Surface of Multilayer Nets" . Menggunakan teori matriks acak, bersama dengan beberapa eksperimen, mereka berpendapat bahwa:
Untuk jaringan ukuran besar, sebagian besar minimum lokal setara dan menghasilkan kinerja yang serupa pada set uji.
Probabilitas menemukan minimum lokal "buruk" (bernilai tinggi) adalah nol untuk jaringan ukuran kecil dan menurun dengan cepat dengan ukuran jaringan.
Berjuang untuk menemukan minimum global pada set pelatihan (sebagai lawan dari salah satu dari banyak lokal yang baik) tidak berguna dalam praktik dan dapat menyebabkan overfitting.
[Dari halaman 2 kertas]
Dalam pandangan ini, tidak ada alasan bagus untuk menerapkan pendekatan berat untuk menemukan minimum global. Waktu itu akan lebih baik dihabiskan untuk mencoba topologi jaringan baru, fitur, set data, dll.
Yang mengatakan, banyak orang berpikir untuk menambah atau mengganti SGD. Untuk jaringan yang cukup kecil (menurut standar kontemporer), metahuristik yang ditingkatkan ini tampaknya melakukan sesuatu Mavrovouniotis dan Yang (2016) menunjukkan bahwa optimisasi koloni semut + backprop mengalahkan backprop yang tidak dimodifikasi pada beberapa set data benchmark (walaupun tidak banyak). Rere el al. (2015) menggunakan simulasi anil untuk melatih CNN dan menemukan awalnya berkinerja lebih baik pada set validasi. Setelah 10 zaman, bagaimanapun, hanya perbedaan yang sangat kecil (dan tidak diuji untuk signifikansi) tetap. Keuntungan konvergensi-per-jaman yang lebih cepat juga diimbangi dengan jumlah waktu komputasi yang lebih besar per jaman, jadi ini bukan kemenangan yang nyata untuk simulasi anil.
Mungkin saja heuristik ini melakukan pekerjaan yang lebih baik dalam menginisialisasi jaringan dan setelah diarahkan ke jalur yang benar, pengoptimal apa pun akan melakukannya. Sutskever et al. (2013) dari kelompok Geoff Hinton berdebat seperti ini di makalah ICML 2013 mereka .