Pertanyaan yang diberi tag «lstm»

Memori Jangka Pendek Panjang (LSTM) adalah arsitektur jaringan saraf yang berisi blok NN berulang yang dapat mengingat nilai untuk jangka waktu yang sewenang-wenang.

1
Cara melatih lapisan deep-network LSTM
Saya menggunakan jaringan lstm dan umpan-maju untuk mengklasifikasikan teks. Saya mengonversi teks menjadi vektor satu-panas dan mengumpankan masing-masing ke dalam lstm sehingga saya dapat meringkasnya sebagai satu representasi. Lalu saya memberinya makan ke jaringan lain. Tapi bagaimana cara melatih lstm? Saya hanya ingin urutan mengklasifikasikan teks - haruskah saya memberinya …

2
Mengapa RNNs dengan unit LSTM juga menderita "meledak gradien"?
Saya memiliki pengetahuan dasar tentang bagaimana RNN (dan, khususnya, dengan unit LSTM) bekerja. Saya punya ide gambar arsitektur unit LSTM, yaitu sel dan beberapa gerbang, yang mengatur aliran nilai. Namun, tampaknya, saya belum sepenuhnya memahami bagaimana LSTM memecahkan masalah "gradien menghilang dan meledak", yang terjadi saat pelatihan, menggunakan back-propagation melalui …


2
Perbedaan antara satu unit LSTM dan 3-unit jaringan saraf LSTM
LSTM dalam kode Keras berikut input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) dapat direpresentasikan sebagai Saya mengerti bahwa ketika kita memanggil model.predict(np.array([[[1],[2],[3],[4]]]))(hanya) unit LSTM terlebih dahulu memproses vektor [1], kemudian [2] ditambah umpan balik dari input sebelumnya dan seterusnya hingga vektor [4]. Dengan kata lain …

2
Menangani kata-kata yang tidak dikenal dalam tugas pemodelan bahasa menggunakan LSTM
Untuk tugas pemrosesan bahasa alami (NLP) seseorang sering menggunakan vektor word2vec sebagai embedding kata-kata. Namun, mungkin ada banyak kata yang tidak dikenal yang tidak ditangkap oleh vektor word2vec hanya karena kata-kata ini tidak cukup sering terlihat dalam data pelatihan (banyak implementasi menggunakan jumlah minimum sebelum menambahkan kata ke dalam kosakata). …

3
Struktur Jaringan Syaraf Berulang (LSTM, GRU)
Saya mencoba memahami arsitektur RNNs. Saya telah menemukan tutorial ini yang sangat membantu: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Terutama gambar ini: Bagaimana ini cocok dengan jaringan umpan-maju? Apakah gambar ini hanyalah simpul lain di setiap lapisan?

2
Cara terbaik untuk menginisialisasi status LSTM
Saya bertanya-tanya apa cara terbaik untuk menginisialisasi keadaan untuk LSTM. Saat ini saya baru saja menginisialisasi ke semua nol. Saya tidak dapat menemukan apa pun secara online tentang cara menginisialisasi. Satu hal yang saya pikirkan untuk dilakukan adalah menjadikan status awal sebagai parameter yang dapat dilatih. Ada saran?

1
Memahami topologi LSTM
Seperti banyak orang lain, saya menemukan sumber daya di sini dan di sini sangat berguna untuk memahami sel-sel LSTM. Saya yakin saya mengerti bagaimana nilai mengalir dan diperbarui, dan saya cukup percaya diri untuk menambahkan "koneksi lubang intip" yang disebutkan, dll. Dalam contoh saya, saya punya setiap langkah langkah vektor …

1
Prediksi seri waktu menggunakan ARIMA vs LSTM
Masalah yang saya hadapi adalah memprediksi nilai deret waktu. Saya melihat satu seri waktu dan berdasarkan pada misalnya 15% dari data input, saya ingin memprediksi nilai-nilai masa depannya. Sejauh ini saya telah menemukan dua model: LSTM (memori jangka pendek; kelas jaringan saraf berulang) ARIMA Saya sudah mencoba keduanya dan membaca …


2
Apa output dari tf.nn.dynamic_rnn ()?
Saya tidak yakin tentang apa yang saya mengerti dari dokumentasi resmi, yang mengatakan: Pengembalian: Sepasang (keluaran, status) tempat: outputs: Tensor keluaran RNN. Jika time_major == False(default), ini akan menjadi Tensor berbentuk: [batch_size, max_time, cell.output_size]. Jika time_major == True, ini akan menjadi Tensor berbentuk: [max_time, batch_size, cell.output_size]. Catatan, jika cell.output_sizetupel integer …

1
Akurasi tiba-tiba turun saat melatih LSTM atau GRU dalam Keras
Jaringan saraf berulang saya (LSTM, resp. GRU) berperilaku dengan cara yang tidak bisa saya jelaskan. Pelatihan dimulai dan dilatih dengan baik (hasilnya terlihat cukup baik) ketika akurasi tiba-tiba turun (dan kehilangan meningkat dengan cepat) - baik pelatihan dan metrik pengujian. Terkadang net menjadi gila dan mengembalikan output acak dan kadang-kadang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.