Pertanyaannya adalah tentang arsitektur Deep Residual Networks ( ResNets ). Model yang memenangkan tempat pertama di "Skala Besar Pengenalan Visual 2015" (ILSVRC2015) di semua lima trek utama:
- ImageNet Klasifikasi: “jaring ultra-dalam” (kutipan Yann) 152 lapisan
- Deteksi ImageNet: 16% lebih baik dari 2
- ImageNet Lokalisasi: 27% lebih baik dari 2
- Deteksi COCO: 11% lebih baik dari ke-2
- Segmentasi COCO: 12% lebih baik dari 2nd
Sumber: Kompetisi MSRA @ ILSVRC & COCO 2015 (presentasi, slide ke-2)
Karya ini dijelaskan dalam artikel berikut:
Pembelajaran Residual Dalam untuk Pengenalan Gambar (2015, PDF)
Tim Riset Microsoft (pengembang ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) dalam artikel mereka:
nyatakan bahwa kedalaman memainkan peran kunci:
" Kami memperoleh hasil ini melalui konsep sederhana namun penting - melangkah lebih dalam. Hasil ini menunjukkan potensi mendorong batas kedalaman. "
Ini ditekankan dalam presentasi mereka juga (lebih dalam - lebih baik):
- "Model yang lebih dalam seharusnya tidak memiliki kesalahan pelatihan yang lebih tinggi."
- "ResNets yang lebih dalam memiliki kesalahan pelatihan yang lebih rendah, dan juga kesalahan pengujian yang lebih rendah."
- "ResNets yang lebih dalam memiliki kesalahan yang lebih rendah."
- "Semua mendapat manfaat lebih dari fitur yang lebih dalam - keuntungan kumulatif!"
- "Lebih dalam masih lebih baik."
Berikut adalah struktur residu 34-layer (untuk referensi):
Tetapi baru-baru ini saya telah menemukan satu teori yang memperkenalkan interpretasi baru dari jaringan residual yang menunjukkan mereka adalah ansambel eksponensial:
Jaringan Residual adalah Ensembel Eksponensial dari Jaringan Relatif Dangkal (2016)
Deep Resnets digambarkan sebagai banyak jaringan dangkal yang outputnya dikumpulkan pada berbagai kedalaman. Ada gambar di artikel itu. Saya lampirkan dengan penjelasan:
Jaringan Residual secara konvensional ditampilkan sebagai (a), yang merupakan representasi alami dari Persamaan (1). Ketika kami memperluas formulasi ini ke Persamaan (6), kami memperoleh pandangan terurai dari jaringan residual 3-blok (b). Dari pandangan ini, jelas bahwa jaringan residual memiliki O (2 ^ n) jalur implisit yang menghubungkan input dan output dan bahwa menambahkan blok menggandakan jumlah jalur.
Dalam kesimpulan artikel itu dinyatakan:
Bukan kedalaman, tetapi ensemble yang membuat jaringan residual kuat . Jaringan residual mendorong batas-batas multiplisitas jaringan, bukan kedalaman jaringan. Usulan pandangan terurai kami dan studi lesi menunjukkan bahwa jaringan residual adalah ansambel implisit dari banyak jaringan secara eksponensial. Jika sebagian besar jalur yang berkontribusi gradien sangat pendek dibandingkan dengan keseluruhan kedalaman jaringan, peningkatan kedalaman saja tidak bisa menjadi karakteristik utama dari jaringan residual. Kami sekarang percaya bahwa multiplisitas , kemampuan jaringan dalam hal jumlah jalur, memainkan peran penting .
Tapi itu hanya teori terbaru yang bisa dikonfirmasi atau disangkal. Kadang-kadang terjadi bahwa beberapa teori disangkal dan artikel ditarik.
Haruskah kita menganggap ResNets yang mendalam sebagai ansambel? Ensemble atau kedalaman membuat jaringan residu begitu kuat? Mungkinkah bahkan para pengembang itu sendiri tidak cukup memahami apa yang diwakili oleh model mereka sendiri dan apa konsep kunci di dalamnya?