Pertanyaan yang diberi tag «neural-networks»

Jaringan saraf tiruan (JST) adalah kelas model komputasi yang luas yang didasarkan pada jaringan saraf biologis. Mereka mencakup NNs feedforward (termasuk NN "dalam"), NN konvolusional, NN berulang, dll.

3
Lapisan softmax dalam jaringan saraf
Saya mencoba menambahkan lapisan softmax ke jaringan saraf yang dilatih dengan backpropagation, jadi saya mencoba menghitung gradiennya. Output softmax adalah mana adalah nomor neuron output.hj= ezj∑ ezsayahj=ezj∑ezsayah_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jika saya mendapatkannya maka saya mendapatkannya ∂hj∂zj= hj( 1 - jamj)∂hj∂zj=hj(1-hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Mirip dengan regresi logistik. Namun ini salah karena pemeriksaan gradien …


1
Neural Networks: momentum perubahan berat badan dan penurunan berat badan
Momentum digunakan untuk mengurangi fluktuasi perubahan berat selama iterasi berurutan:αα\alpha Δ ωsaya( t + 1 ) =- η∂E∂wsaya+ α Δωsaya( t ) ,Δωsaya(t+1)=-η∂E∂wsaya+αΔωsaya(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), mana adalah fungsi kesalahan, - vektor bobot, - tingkat pembelajaran.E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Pembusukan berat menghukum perubahan …

4
Mengapa fungsi sigmoid bukan yang lain?
Mengapa fungsi sigmoid standar de-facto, , begitu populer di jaringan saraf dan regresi logistik (tidak dalam)?11 + e- x11+e-x\frac{1}{1+e^{-x}} Mengapa kita tidak menggunakan banyak fungsi turunan lainnya, dengan waktu perhitungan yang lebih cepat atau peluruhan yang lebih lambat (sehingga gradien menghilang lebih sedikit). Beberapa contoh ada di Wikipedia tentang fungsi …


4
Bagaimana fungsi aktivasi bujursangkar menyelesaikan masalah gradien hilang dalam jaringan saraf?
Saya menemukan unit linear diperbaiki (ReLU) dipuji di beberapa tempat sebagai solusi untuk masalah gradien menghilang untuk jaringan saraf. Artinya, seseorang menggunakan maks (0, x) sebagai fungsi aktivasi. Ketika aktivasi positif, jelas bahwa ini lebih baik daripada, katakanlah, fungsi aktivasi sigmoid, karena derivasiasinya selalu 1 bukannya nilai kecil sewenang-wenang untuk …

7
Normalisasi dan standardisasi data dalam jaringan saraf
Saya mencoba untuk memprediksi hasil dari sistem yang kompleks menggunakan jaringan saraf (JST). Nilai hasil (tergantung) berkisar antara 0 dan 10.000. Variabel input yang berbeda memiliki rentang yang berbeda. Semua variabel memiliki distribusi normal. Saya mempertimbangkan berbagai opsi untuk mengukur data sebelum pelatihan. Salah satu opsi adalah menskalakan variabel input …

2
ImageNet: berapa tingkat kesalahan top-1 dan top-5?
Dalam makalah klasifikasi ImageNet tingkat kesalahan top-1 dan top-5 adalah unit penting untuk mengukur keberhasilan beberapa solusi, tetapi apa tingkat kesalahan itu? Dalam Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam oleh Krizhevsky et al. setiap solusi berdasarkan pada satu CNN (halaman 7) tidak memiliki tingkat kesalahan top-5 sedangkan yang dengan …

5
Bagaimana memvisualisasikan / memahami apa yang dilakukan jaringan saraf?
Jaringan saraf sering diperlakukan sebagai "kotak hitam" karena strukturnya yang kompleks. Ini tidak ideal, karena sering bermanfaat untuk memiliki pemahaman intuitif tentang bagaimana model bekerja secara internal. Apa metode memvisualisasikan bagaimana jaringan saraf yang terlatih bekerja? Atau, bagaimana kita dapat mengekstrak deskripsi jaringan yang mudah dicerna (mis. Simpul tersembunyi ini …


4
Apa yang harus saya lakukan ketika jaringan saraf saya tidak menggeneralisasi dengan baik?
Saya melatih jaringan saraf dan kehilangan pelatihan berkurang, tetapi kehilangan validasi tidak, atau berkurang jauh lebih sedikit daripada yang saya harapkan, berdasarkan referensi atau percobaan dengan arsitektur dan data yang sangat mirip. Bagaimana saya bisa memperbaikinya? Adapun pertanyaan Apa yang harus saya lakukan ketika jaringan saraf saya tidak belajar? dimana …


3
Machine Learning: Haruskah saya menggunakan entropi silang kategoris atau kehilangan entropi silang biner untuk prediksi biner?
Pertama-tama, saya menyadari jika saya perlu melakukan prediksi biner, saya harus membuat setidaknya dua kelas melalui melakukan satu-hot-encoding. Apakah ini benar? Namun, apakah binary cross entropy hanya untuk prediksi dengan hanya satu kelas? Jika saya menggunakan kerugian entropi lintas kategoris yang biasanya ditemukan di sebagian besar perpustakaan (seperti TensorFlow), apakah …

5
Fungsi biaya jaringan saraf adalah non-cembung?
Fungsi biaya jaringan saraf adalah , dan diklaim non-cembung . Saya tidak begitu mengerti mengapa seperti itu, karena seperti yang saya lihat itu sangat mirip dengan fungsi biaya dari regresi logistik, kan?J(W,b)J(W,b)J(W,b) Jika non-cembung, maka turunan urutan kedua , kan?∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 MEMPERBARUI Berkat jawaban di bawah ini …

4
Bagaimana LSTM mencegah masalah gradien hilang?
LSTM diciptakan khusus untuk menghindari masalah gradien hilang. Seharusnya melakukan itu dengan Constant Error Carousel (CEC), yang pada diagram di bawah ini (dari Greff et al. ) Sesuai dengan loop di sekitar sel . (sumber: deeplearning4j.org ) Dan saya mengerti bahwa bagian itu dapat dilihat sebagai semacam fungsi identitas, sehingga …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.