Saya sangat terlambat ke permainan, tetapi saya ingin memposting untuk mencerminkan beberapa perkembangan saat ini dalam jaringan saraf convolutional sehubungan dengan melewatkan koneksi .
Tim Riset Microsoft baru-baru ini memenangkan kompetisi ImageNet 2015 dan merilis laporan teknis Deep Residual Learning untuk Pengenalan Gambar yang menggambarkan beberapa ide utama mereka.
Salah satu kontribusi utama mereka adalah konsep lapisan residu dalam ini . Lapisan residu yang dalam ini menggunakan koneksi lewati . Dengan menggunakan lapisan residu yang dalam ini, mereka dapat melatih jaring lapisan 152 untuk ImageNet 2015. Mereka bahkan melatih jaring jaring lapisan 1000+ untuk CIFAR-10.
Masalah yang memotivasi mereka adalah sebagai berikut:
Ketika jaringan yang lebih dalam dapat mulai melakukan konvergensi, masalah degradasi telah terungkap: dengan meningkatnya kedalaman jaringan, akurasi menjadi jenuh (yang mungkin tidak mengejutkan) dan kemudian menurun dengan cepat. Tanpa diduga, degradasi seperti itu tidak disebabkan oleh overfitting , dan menambahkan lebih banyak lapisan ke dalam model yang sesuai mengarah pada kesalahan pelatihan yang lebih tinggi ...
Idenya adalah jika itu jika Anda mengambil jaringan "dangkal" dan hanya menumpuk pada lebih banyak lapisan untuk membuat jaringan yang lebih dalam, kinerja jaringan yang lebih dalam harus setidaknya sama baiknya dengan jaringan yang dangkal karena jaringan yang lebih dalam dapat mempelajari dangkal yang tepat jaringan dengan mengatur lapisan-lapisan yang baru ditumpuk ke lapisan-lapisan identitas (pada kenyataannya kita tahu ini mungkin sangat tidak mungkin terjadi tanpa menggunakan prior arsitektur atau metode optimasi saat ini). Mereka mengamati bahwa ini tidak terjadi dan bahwa kesalahan pelatihan kadang-kadang menjadi lebih buruk ketika mereka menumpuk lebih banyak lapisan di atas model yang lebih dangkal.
Jadi ini memotivasi mereka untuk menggunakan koneksi skip dan menggunakan apa yang disebut lapisan residu dalam untuk memungkinkan jaringan mereka untuk belajar penyimpangan dari lapisan identitas, maka istilah residual , residual di sini mengacu pada perbedaan dari identitas.
Mereka menerapkan koneksi lewati dengan cara berikut:
Jadi mereka melihat peta karena beberapa peta residual. Mereka menggunakan koneksi lapisan lewati untuk memetakan pemetaan ini ke . Jadi jika residual adalah "kecil", peta kira-kira identitasnya.F( x ) : = H ( x ) - xF( x ) + x = H ( x )F( x )H (x)
Dengan cara ini, penggunaan lapisan residu dalam melalui koneksi skip memungkinkan jaring dalam mereka untuk mempelajari perkiraan lapisan identitas, jika memang itulah yang optimal, atau optimal secara lokal. Memang mereka mengklaim bahwa lapisan residu mereka:
Kami menunjukkan melalui percobaan (Gbr. 7) bahwa fungsi residual yang dipelajari secara umum memiliki respons kecil
Mengenai mengapa tepatnya ini bekerja, mereka tidak memiliki jawaban yang pasti. Sangat tidak mungkin bahwa lapisan identitas optimal, tetapi mereka percaya bahwa menggunakan lapisan residual ini membantu prasyarat masalah dan bahwa lebih mudah untuk mempelajari fungsi baru yang diberikan referensi / dasar perbandingan dengan pemetaan identitas daripada belajar satu "dari awal" tanpa menggunakan baseline identitas. Siapa tahu. Tapi saya pikir ini akan menjadi jawaban yang bagus untuk pertanyaan Anda.
Ngomong-ngomong, di belakang: jawaban sashkello bahkan lebih baik bukan?