Saya telah menggunakan theano untuk bereksperimen dengan LSTM, dan bertanya-tanya apa metode optimasi (SGD, Adagrad, Adadelta, RMSprop, Adam, dll) bekerja paling baik untuk LSTM? Apakah ada makalah penelitian tentang topik ini?
Juga, apakah jawabannya tergantung pada jenis aplikasi yang saya gunakan untuk LSTM? Jika demikian, saya menggunakan LSTM untuk klasifikasi teks (di mana teks pertama kali dikonversi menjadi vektor kata).
Akhirnya, apakah jawabannya sama atau berbeda untuk RNN? Petunjuk apa pun untuk makalah penelitian, atau wawasan pribadi akan sangat dihargai!
LSTM tampaknya cukup kuat dan saya tertarik untuk belajar lebih banyak tentang cara terbaik menggunakannya.