Haruskah jaringan residu yang dalam dipandang sebagai ansambel jaringan?

12

Pertanyaannya adalah tentang arsitektur Deep Residual Networks ( ResNets ). Model yang memenangkan tempat pertama di "Skala Besar Pengenalan Visual 2015" (ILSVRC2015) di semua lima trek utama:

ImageNet Klasifikasi: “jaring ultra-dalam” (kutipan Yann) 152 lapisan

Deteksi ImageNet: 16% lebih baik dari 2

ImageNet Lokalisasi: 27% lebih baik dari 2

Deteksi COCO: 11% lebih baik dari ke-2

Segmentasi COCO: 12% lebih baik dari 2nd

Sumber: Kompetisi MSRA @ ILSVRC & COCO 2015 (presentasi, slide ke-2)

Karya ini dijelaskan dalam artikel berikut:

Pembelajaran Residual Dalam untuk Pengenalan Gambar (2015, PDF)

Tim Riset Microsoft (pengembang ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) dalam artikel mereka:

" Pemetaan Identitas di Deep Residual Networks (2016) "

nyatakan bahwa kedalaman memainkan peran kunci:

" Kami memperoleh hasil ini melalui konsep sederhana namun penting - melangkah lebih dalam. Hasil ini menunjukkan potensi mendorong batas kedalaman. "

Ini ditekankan dalam presentasi mereka juga (lebih dalam - lebih baik):

- "Model yang lebih dalam seharusnya tidak memiliki kesalahan pelatihan yang lebih tinggi."
- "ResNets yang lebih dalam memiliki kesalahan pelatihan yang lebih rendah, dan juga kesalahan pengujian yang lebih rendah."
- "ResNets yang lebih dalam memiliki kesalahan yang lebih rendah."
- "Semua mendapat manfaat lebih dari fitur yang lebih dalam - keuntungan kumulatif!"
- "Lebih dalam masih lebih baik."

Berikut adalah struktur residu 34-layer (untuk referensi):

Tetapi baru-baru ini saya telah menemukan satu teori yang memperkenalkan interpretasi baru dari jaringan residual yang menunjukkan mereka adalah ansambel eksponensial:

Jaringan Residual adalah Ensembel Eksponensial dari Jaringan Relatif Dangkal (2016)

Deep Resnets digambarkan sebagai banyak jaringan dangkal yang outputnya dikumpulkan pada berbagai kedalaman. Ada gambar di artikel itu. Saya lampirkan dengan penjelasan:

Jaringan Residual secara konvensional ditampilkan sebagai (a), yang merupakan representasi alami dari Persamaan (1). Ketika kami memperluas formulasi ini ke Persamaan (6), kami memperoleh pandangan terurai dari jaringan residual 3-blok (b). Dari pandangan ini, jelas bahwa jaringan residual memiliki O (2 ^ n) jalur implisit yang menghubungkan input dan output dan bahwa menambahkan blok menggandakan jumlah jalur.

Dalam kesimpulan artikel itu dinyatakan:

Bukan kedalaman, tetapi ensemble yang membuat jaringan residual kuat . Jaringan residual mendorong batas-batas multiplisitas jaringan, bukan kedalaman jaringan. Usulan pandangan terurai kami dan studi lesi menunjukkan bahwa jaringan residual adalah ansambel implisit dari banyak jaringan secara eksponensial. Jika sebagian besar jalur yang berkontribusi gradien sangat pendek dibandingkan dengan keseluruhan kedalaman jaringan, peningkatan kedalaman saja tidak bisa menjadi karakteristik utama dari jaringan residual. Kami sekarang percaya bahwa multiplisitas , kemampuan jaringan dalam hal jumlah jalur, memainkan peran penting .

Tapi itu hanya teori terbaru yang bisa dikonfirmasi atau disangkal. Kadang-kadang terjadi bahwa beberapa teori disangkal dan artikel ditarik.

Haruskah kita menganggap ResNets yang mendalam sebagai ansambel? Ensemble atau kedalaman membuat jaringan residu begitu kuat? Mungkinkah bahkan para pengembang itu sendiri tidak cukup memahami apa yang diwakili oleh model mereka sendiri dan apa konsep kunci di dalamnya?

— Erba Aitbayev
sumber

4

Bayangkan jin memberi Anda tiga permintaan. Karena Anda adalah seorang peneliti pembelajaran mendalam yang ambisius, keinginan pertama Anda adalah solusi sempurna untuk NN 1000-layer untuk Image Net, yang segera muncul di laptop Anda.

Sekarang solusi jin yang diinduksi tidak memberi Anda intuisi bagaimana itu dapat ditafsirkan sebagai ansambel, tetapi apakah Anda benar-benar percaya bahwa Anda perlu 1000 lapis abstraksi untuk membedakan kucing dari anjing? Sebagaimana penulis "makalah ensemble" menyebut diri mereka, ini jelas tidak benar untuk sistem biologis.

Tentu saja Anda bisa menyia-nyiakan harapan kedua Anda pada dekomposisi solusi ke dalam ansambel jaringan, dan saya cukup yakin jin akan dapat mematuhinya. Alasannya adalah bahwa bagian dari kekuatan jaringan yang dalam akan selalu datang dari efek ensemble.

Jadi tidak mengherankan bahwa dua trik yang sangat sukses untuk melatih jaringan yang dalam, putus dan sisa jaringan, memiliki interpretasi langsung sebagai ansambel tersirat. Oleh karena itu "ini bukan kedalaman, tetapi ansambel" menganggap saya sebagai dikotomi palsu. Anda benar-benar hanya akan mengatakan bahwa jika Anda benar-benar percaya bahwa Anda memerlukan ratusan atau ribuan level abstraksi untuk mengklasifikasikan gambar dengan akurasi manusia.

Saya sarankan Anda menggunakan keinginan terakhir untuk sesuatu yang lain, mungkin pinacolada.

— BlindKungFuMaster
sumber

0

Jaringan residual acak untuk banyak non-linearitas seperti tanh hidup di tepi kekacauan, di mana jarak cosinus dari dua vektor input akan menyatu ke titik tetap pada laju polinomial, daripada laju eksponensial, seperti dengan jaringan tanh vanili. Dengan demikian jaringan residual yang khas akan perlahan-lahan melintasi batas stabil-kacau dengan kedalaman, melayang di sekitar batas ini untuk banyak lapisan. Pada dasarnya itu tidak "melupakan" geometri ruang input "sangat cepat". Jadi, bahkan jika kita membuatnya sangat dalam, mereka bekerja lebih baik dengan jaringan vanila.

Untuk informasi lebih lanjut tentang penyebaran informasi dalam jaringan residual - Mean Field Residual Networks: On the Edge of Chaos

— Snehal Reddy
sumber