Saya ingin tahu tentang bagaimana gradien diperbanyak kembali melalui jaringan saraf menggunakan modul ResNet / lewati koneksi. Saya telah melihat beberapa pertanyaan tentang ResNet (mis. Jaringan saraf dengan koneksi lompatan-lapisan ) tetapi yang satu ini menanyakan secara khusus tentang back-propagation of gradien selama pelatihan.
Arsitektur dasarnya ada di sini:
Saya membaca makalah ini, Studi Residual Networks untuk Pengenalan Gambar , dan di Bagian 2 mereka berbicara tentang bagaimana salah satu tujuan dari ResNet adalah untuk memungkinkan jalur yang lebih pendek / lebih jelas agar gradien merambat kembali ke lapisan dasar.
Adakah yang bisa menjelaskan bagaimana gradien mengalir melalui jenis jaringan ini? Saya tidak begitu mengerti bagaimana operasi penambahan, dan kurangnya lapisan parameter setelah penambahan, memungkinkan untuk propagasi gradien yang lebih baik. Apakah itu ada hubungannya dengan bagaimana gradien tidak berubah ketika mengalir melalui operator add dan entah bagaimana didistribusikan kembali tanpa multiplikasi?
Selain itu, saya bisa mengerti bagaimana masalah gradien hilang dikurangi jika gradien tidak perlu mengalir melalui lapisan berat, tetapi jika tidak ada aliran gradien melalui bobot maka bagaimana mereka diperbarui setelah melewati mundur?
the gradient doesn't need to flow through the weight layers
, dapatkah Anda menjelaskan hal itu?