Saya melakukan percobaan pada set validasi EMNIST menggunakan jaringan dengan RMSProp, Adam dan SGD. Saya mencapai akurasi 87% dengan SGD (tingkat belajar 0,1) dan dropout (0,1 dropout prob) serta regularisasi L2 (penalti 1e-05). Saat menguji konfigurasi persis yang sama dengan RMSProp dan Adam serta tingkat pembelajaran awal 0,001, saya mencapai akurasi 85% dan kurva pelatihan yang secara signifikan kurang mulus. Saya tidak tahu bagaimana menjelaskan perilaku ini. Apa yang bisa menjadi alasan di balik kurangnya kelancaran dalam kurva pelatihan dan akurasi yang lebih rendah dan tingkat kesalahan yang lebih tinggi tercapai?