Jawaban:
LSTM memiliki satu set 2 matriks: U dan W untuk masing-masing (3) gerbang. The (.) Pada diagram menunjukkan multiplikasi dari matriks-matriks ini dengan input dan output .
Karenanya total parameter # =
Namun jika LSTM Anda termasuk vektor bias, ( ini adalah default dalam keras misalnya ), jumlahnya menjadi:
Menurut ini :
Struktur sel LSTM
Persamaan LSTM
Ingoring non-linearitas
Jika input x_t adalah ukuran n × 1, dan ada sel memori d , maka ukuran masing-masing W ∗ dan U ∗ adalah d × n , dan d × d resp. Ukuran W kemudian akan menjadi 4d × (n + d) . Perhatikan bahwa masing-masing sel memori dd memiliki bobot sendiri W ∗ dan U ∗ , dan bahwa satu-satunya waktu nilai sel memori dibagi dengan unit LSTM lainnya selama produk dengan U ∗ .
Terima kasih kepada Arun Mallya untuk presentasi yang luar biasa.