Saya pikir Anda mengacu pada lapisan LSTM yang ditumpuk secara vertikal (dengan asumsi sumbu horizontal adalah sumbu waktu.
Dalam hal itu alasan utama untuk menumpuk LSTM adalah untuk memungkinkan kompleksitas model yang lebih besar. Dalam hal feedforward net kami menumpuk lapisan untuk membuat representasi fitur hirarki dari data input untuk kemudian digunakan untuk beberapa tugas pembelajaran mesin. Hal yang sama berlaku untuk tumpukan LSTM.
Pada setiap langkah langkah LSTM, selain input berulang. Jika input sudah merupakan hasil dari lapisan LSTM (atau feedforward layer) maka LSTM saat ini dapat membuat representasi fitur yang lebih kompleks dari input saat ini.
Sekarang perbedaan antara memiliki lapisan feedforward antara input fitur dan lapisan LSTM dan memiliki lapisan LSTM lainnya adalah bahwa lapisan umpan maju (katakanlah lapisan yang terhubung penuh) tidak menerima umpan balik dari langkah waktu sebelumnya dan dengan demikian tidak dapat menjelaskan secara pasti pola. Memiliki LSTM sebagai pengganti (misalnya menggunakan representasi LSTM bertumpuk) pola input yang lebih kompleks dapat dijelaskan pada setiap lapisan