Tampaknya pengoptimal Adaptive Moment Estimation (Adam) hampir selalu bekerja lebih baik (lebih cepat dan lebih dapat dipercaya mencapai minimum global) ketika meminimalkan fungsi biaya dalam pelatihan jaring saraf.
Mengapa tidak selalu menggunakan Adam? Mengapa repot-repot menggunakan RMSProp atau pengoptimal momentum?