LSTM diciptakan khusus untuk menghindari masalah gradien hilang. Seharusnya melakukan itu dengan Constant Error Carousel (CEC), yang pada diagram di bawah ini (dari Greff et al. ) Sesuai dengan loop di sekitar sel .
(sumber: deeplearning4j.org )
Dan saya mengerti bahwa bagian itu dapat dilihat sebagai semacam fungsi identitas, sehingga turunannya satu dan gradien tetap konstan.
Yang tidak saya mengerti adalah bagaimana itu tidak hilang karena fungsi aktivasi lainnya? Input, output dan lupa gerbang menggunakan sigmoid, yang turunannya paling banyak 0,25, dan g dan h secara tradisional tanh . Bagaimana melakukan backpropagating melalui mereka yang tidak membuat gradien menghilang?