Saya telah menggunakan jaringan saraf untuk sementara waktu sekarang. Namun, satu hal yang selalu saya perjuangkan adalah pemilihan pengoptimal untuk melatih jaringan (menggunakan backprop). Apa yang biasanya saya lakukan hanyalah mulai dengan satu (misalnya SGD standar) dan kemudian coba yang lain cukup banyak secara acak. Saya bertanya-tanya apakah ada pendekatan yang lebih baik (dan kurang acak) untuk menemukan pengoptimal yang baik, misalnya dari daftar ini:
- SGD (dengan atau tanpa momentum)
- AdaDelta
- AdaGrad
- RMSProp
- Adam
Secara khusus, saya tertarik jika ada beberapa pembenaran teoretis untuk memilih satu sama lain mengingat data pelatihan memiliki beberapa properti, misalnya itu jarang. Saya juga akan membayangkan bahwa beberapa pengoptimal bekerja lebih baik daripada yang lain dalam domain tertentu, misalnya ketika melatih jaringan konvolusional vs jaringan umpan-maju atau klasifikasi vs regresi.
Jika ada di antara Anda yang telah mengembangkan beberapa strategi dan / atau intuisi tentang bagaimana Anda memilih pengoptimal, saya akan sangat tertarik mendengarnya. Selain itu, jika ada beberapa pekerjaan yang memberikan pembenaran teoretis untuk memilih satu sama lain, itu akan lebih baik.