Saya memiliki pengetahuan dasar tentang bagaimana RNN (dan, khususnya, dengan unit LSTM) bekerja. Saya punya ide gambar arsitektur unit LSTM, yaitu sel dan beberapa gerbang, yang mengatur aliran nilai.
Namun, tampaknya, saya belum sepenuhnya memahami bagaimana LSTM memecahkan masalah "gradien menghilang dan meledak", yang terjadi saat pelatihan, menggunakan back-propagation melalui waktu, RNN konvensional. Saya belum berkesempatan membaca koran untuk memahami matematika sepenuhnya.
Jawaban ini memberikan penjelasan singkat tentang bagaimana RNN dengan unit LSTM memecahkan masalah "gradien hilang". Secara matematis, alasannya tampaknya adalah tidak adanya turunan yang tidak lenyap, yaitu tidak cenderung nol. Akibatnya, penulis menyatakan, "setidaknya ada satu jalur di mana gradien tidak hilang". IMHO, penjelasan ini agak kabur.
Sementara itu, saya membaca makalah Sequence to Sequence Learning dengan Neural Networks (oleh Ilya Sutskever, Oriol Vinyals, Quoc V. Le), dan, dalam makalah itu, bagian "3.4 detail pelatihan", dinyatakan
Meskipun LSTM cenderung tidak menderita masalah gradien hilang, mereka dapat memiliki gradien meledak.
Saya selalu berpikir bahwa RNN dengan unit LSTM memecahkan masalah "menghilang" dan "meledak gradien", tetapi, tampaknya, RNN dengan unit LSTM juga menderita "meledak gradien".
Secara intuitif, mengapa begitu? Secara matematis, apa alasannya?