Pertanyaan yang diberi tag «deep-learning»

area baru penelitian Machine Learning yang berkaitan dengan teknologi yang digunakan untuk mempelajari representasi data hirarkis, terutama dilakukan dengan jaringan saraf yang dalam (yaitu jaringan dengan dua atau lebih lapisan tersembunyi), tetapi juga dengan semacam Model Grafis Probabilistik.

5
Apa masalah "ReLU yang sekarat" dalam jaringan saraf?
Mengacu pada catatan kursus Stanford tentang Jaringan Syaraf Konvolusional untuk Pengenalan Visual , sebuah paragraf mengatakan: "Sayangnya, unit ReLU bisa rapuh selama pelatihan dan bisa" mati ". Misalnya, gradien besar yang mengalir melalui neuron ReLU dapat menyebabkan bobot diperbarui sedemikian rupa sehingga neuron tidak akan pernah diaktifkan pada titik data …

6
Kapan menggunakan GRU di atas LSTM?
Perbedaan utama antara GRU dan LSTM adalah bahwa GRU memiliki dua gerbang ( reset dan memperbarui gerbang) sedangkan LSTM memiliki tiga gerbang (yaitu input , output dan gerbang lupa ). Mengapa kita menggunakan GRU ketika kita jelas memiliki lebih banyak kontrol pada jaringan melalui model LSTM (karena kita memiliki tiga …

8
Memilih tingkat pembelajaran
Saat ini saya sedang mengerjakan implementasi Stochastic Gradient Descent,, SGDuntuk jaring saraf menggunakan back-propagation, dan sementara saya mengerti tujuannya, saya punya beberapa pertanyaan tentang bagaimana memilih nilai untuk tingkat pembelajaran. Apakah tingkat pembelajaran terkait dengan bentuk gradien kesalahan, karena menentukan tingkat keturunan? Jika demikian, bagaimana Anda menggunakan informasi ini untuk …



5
Prediksi deret waktu menggunakan ARIMA vs LSTM
Masalah yang saya hadapi adalah memprediksi nilai deret waktu. Saya melihat satu seri waktu pada satu waktu dan berdasarkan misalnya 15% dari data input, saya ingin memprediksi nilai-nilai masa depannya. Sejauh ini saya telah menemukan dua model: LSTM (memori jangka pendek; kelas jaringan saraf berulang) ARIMA Saya sudah mencoba keduanya …

2
Kapan menggunakan (He atau Glorot) inisialisasi normal di atas seragam init? Dan apa efeknya dengan Normalisasi Batch?
Saya tahu bahwa Residual Network (ResNet) membuatnya inisialisasi normal menjadi populer. Dalam ResNet, inisialisasi normal He digunakan , sedangkan lapisan pertama menggunakan inisialisasi seragam He. Saya telah melihat melalui kertas ResNet dan kertas "Delving Deep into Rectifiers" (Dia menginisialisasi kertas), tetapi saya belum menemukan penyebutan pada init normal vs seragam …

3
Cara melawan kekurangan dalam jaring saraf yang dalam
Ketika saya mulai dengan jaringan saraf tiruan (NN) saya pikir saya harus berjuang overfitting sebagai masalah utama. Tetapi dalam prakteknya saya bahkan tidak bisa mendapatkan NN saya untuk melewati penghalang tingkat kesalahan 20%. Saya bahkan tidak bisa mengalahkan skor saya di hutan acak! Saya mencari saran yang sangat umum atau …

3
Jumlah parameter dalam model LSTM
Berapa banyak parameter yang dimiliki oleh satu LSTM bertumpuk? Jumlah parameter memaksakan batas bawah pada jumlah contoh pelatihan yang diperlukan dan juga mempengaruhi waktu pelatihan. Karenanya mengetahui jumlah parameter berguna untuk model pelatihan menggunakan LSTM.



3
Apakah batch_size di Keras memiliki efek pada kualitas hasil?
Saya akan melatih jaringan LSTM besar dengan 2-3 juta artikel dan saya berjuang dengan Kesalahan Memori (saya menggunakan AWS EC2 g2x2large). Saya menemukan bahwa salah satu solusinya adalah dengan mengurangi batch_size. Namun, saya tidak yakin apakah parameter ini hanya terkait dengan masalah efisiensi memori atau apakah akan mempengaruhi hasil saya. …

3
Apa perbedaan antara “equivariant to translation” dan “invariant to translation”
Saya mengalami kesulitan memahami perbedaan antara equivariant ke terjemahan dan invariant to translation . Dalam buku Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville, dan Y. Bengio), dapat ditemukan di jaringan konvolusional: [...] bentuk tertentu dari berbagi parameter menyebabkan layer memiliki properti yang disebut equivariance to translation [...] …


6
Penjelasan kerugian lintas-entropi
Misalkan saya membuat NN untuk klasifikasi. Lapisan terakhir adalah lapisan padat dengan aktivasi softmax. Saya memiliki lima kelas yang berbeda untuk diklasifikasi. Misalkan untuk contoh pelatihan tunggal, true labeladalah [1 0 0 0 0]saat prediksi [0.1 0.5 0.1 0.1 0.2]. Bagaimana saya menghitung kerugian lintas entropi untuk contoh ini?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.