Pertanyaan yang diberi tag «lstm»

Memori Jangka Pendek Panjang (LSTM) adalah arsitektur jaringan saraf yang berisi blok NN berulang yang dapat mengingat nilai untuk jangka waktu yang sewenang-wenang.

4
Bagaimana LSTM mencegah masalah gradien hilang?
LSTM diciptakan khusus untuk menghindari masalah gradien hilang. Seharusnya melakukan itu dengan Constant Error Carousel (CEC), yang pada diagram di bawah ini (dari Greff et al. ) Sesuai dengan loop di sekitar sel . (sumber: deeplearning4j.org ) Dan saya mengerti bahwa bagian itu dapat dilihat sebagai semacam fungsi identitas, sehingga …

5
Memahami unit LSTM vs. sel
Saya telah mempelajari LSTM untuk sementara waktu. Saya mengerti pada tingkat tinggi bagaimana semuanya bekerja. Namun, akan mengimplementasikannya menggunakan Tensorflow saya perhatikan bahwa BasicLSTMCell memerlukan sejumlah unit (yaitu num_units) parameter. Dari ini penjelasan yang sangat menyeluruh LSTMs, saya sudah mengumpulkan bahwa satu satuan LSTM adalah salah satu dari berikut ini …

1
Kehilangan pelatihan turun dan naik lagi. Apa yang terjadi?
Kehilangan latihan saya turun dan naik lagi. Sangat aneh. Kehilangan validasi silang melacak kehilangan pelatihan. Apa yang sedang terjadi? Saya memiliki dua LSTMS yang ditumpuk sebagai berikut (pada Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Saya latih untuk 100 Zaman: model.fit(X_train, …

3
Apa keuntungan dari menumpuk banyak LSTM?
Apa keuntungannya, mengapa seseorang menggunakan banyak LSTM, ditumpuk satu demi satu, dalam jaringan yang dalam? Saya menggunakan LSTM untuk mewakili urutan input sebagai input tunggal. Jadi, begitu saya memiliki representasi tunggal itu — mengapa saya harus melewatinya lagi? Saya bertanya ini karena saya melihat ini dalam program generasi bahasa alami.

1
Apa sebenarnya mekanisme perhatian?
Mekanisme perhatian telah digunakan dalam berbagai makalah Deep Learning dalam beberapa tahun terakhir. Ilya Sutskever, kepala penelitian di Open AI, dengan antusias memuji mereka: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello di Purdue University telah mengklaim bahwa RNN dan LSTM harus ditinggalkan demi jaringan saraf murni berdasarkan perhatian: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Ini tampaknya berlebihan, tetapi tidak …

3
Memahami parameter input_shape di LSTM dengan Keras
Saya mencoba menggunakan contoh yang dijelaskan dalam dokumentasi Keras bernama "Stacked LSTM untuk klasifikasi urutan" (lihat kode di bawah) dan tidak dapat menemukan input_shapeparameter dalam konteks data saya. Saya telah memasukkan matriks urutan 25 karakter yang mungkin dikodekan dalam bilangan bulat ke urutan empuk dengan panjang maksimum 31. Sebagai hasilnya, …
20 lstm  keras  shape  dimensions 

4
Perbedaan antara umpan balik RNN ​​dan LSTM / GRU
Saya mencoba memahami arsitektur Recurrent neural network (RNN) yang berbeda untuk diterapkan pada data deret waktu dan saya agak bingung dengan nama-nama berbeda yang sering digunakan ketika menggambarkan RNN. Apakah struktur memori jangka pendek panjang (LSTM) dan Gated Recurrent Unit (GRU) pada dasarnya adalah RNN dengan loop umpan balik?

2
Metode optimasi apa yang paling cocok untuk LSTM?
Saya telah menggunakan theano untuk bereksperimen dengan LSTM, dan bertanya-tanya apa metode optimasi (SGD, Adagrad, Adadelta, RMSprop, Adam, dll) bekerja paling baik untuk LSTM? Apakah ada makalah penelitian tentang topik ini? Juga, apakah jawabannya tergantung pada jenis aplikasi yang saya gunakan untuk LSTM? Jika demikian, saya menggunakan LSTM untuk klasifikasi …

3
Mengapa bobot jaringan RNN / LSTM dibagikan sepanjang waktu?
Saya baru-baru ini menjadi tertarik pada LSTM dan saya terkejut mengetahui bahwa bobot dibagi bersama waktu. Saya tahu bahwa jika Anda berbagi bobot lintas waktu, maka urutan waktu input Anda dapat menjadi panjang variabel. Dengan bobot bersama, Anda memiliki lebih sedikit parameter untuk dilatih. Dari pemahaman saya, alasan seseorang akan …


3
Perbedaan antara sampel, langkah waktu dan fitur dalam jaringan saraf
Saya akan melalui blog berikut pada jaringan saraf LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Penulis membentuk kembali vektor input X sebagai [sampel, langkah waktu, fitur] untuk konfigurasi LSTM yang berbeda. Penulis menulis Memang, urutan huruf adalah langkah waktu dari satu fitur daripada satu langkah waktu dari fitur yang terpisah. Kami telah memberikan lebih banyak …

1
Berapa panjang urutan yang layak untuk model RNN?
Saya melihat ke dalam menggunakan versi LSTM ( memori jangka pendek ) dari jaringan saraf berulang (RNN) untuk memodelkan data deret waktu. Ketika panjang urutan data meningkat, kompleksitas jaringan meningkat. Karena itu saya ingin tahu berapa panjang urutan yang layak untuk model dengan akurasi yang baik? Saya ingin menggunakan versi …

1
RNNs: Kapan menerapkan BPTT dan / atau memperbarui bobot?
Saya mencoba memahami aplikasi tingkat tinggi RNNs untuk pelabelan urutan melalui (antara lain) makalah Graves 2005 tentang klasifikasi fonem. Untuk meringkas masalah: Kami memiliki satu set pelatihan besar yang terdiri dari (input) file audio dari kalimat tunggal dan (output) waktu mulai berlabel ahli, waktu berhenti dan label untuk fonem individu …
15 lstm  rnn 

1
Bagaimana cara melatih model LSTM pada beberapa data deret waktu?
Bagaimana cara melatih model LSTM pada beberapa data deret waktu? Kasus penggunaan: Saya memiliki penjualan mingguan 20.000 agen selama 5 tahun terakhir. Perlu memperkirakan penjualan mingguan mendatang untuk setiap agen. Apakah saya perlu mengikuti teknik pemrosesan batch - mengambil satu agen pada suatu waktu, melatih model LSTM kemudian memperkirakan? Adakah …

1
Mencegah overfitting LSTM pada dataset kecil
Saya memodelkan 15.000 tweet untuk prediksi sentimen menggunakan LSTM lapisan tunggal dengan 128 unit tersembunyi menggunakan representasi seperti word2vec dengan 80 dimensi. Saya mendapatkan akurasi keturunan (38% dengan acak = 20%) setelah 1 zaman. Lebih banyak pelatihan membuat akurasi validasi mulai menurun ketika akurasi pelatihan mulai naik - tanda yang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.