Bagaimana cara kerja "teori kapsul" Hinton?


35

Geoffrey Hinton telah meneliti sesuatu yang dia sebut "teori kapsul" dalam jaringan saraf. Apa ini dan bagaimana cara kerjanya?


8
Sekarang makalah ini dapat dilihat di: arxiv.org/abs/1710.09829 Routing Dinamis Antar Kapsul Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Danke Xie

1
Ada pertanyaan terkait dengan informasi yang lebih baru (November 2017): Apa konsep utama di balik Capsule Networks?
mjul

Jawaban:


31

Tampaknya belum diterbitkan; online terbaik yang tersedia adalah slide ini untuk ceramah ini . (Beberapa orang mereferensikan pembicaraan sebelumnya dengan tautan ini , tetapi sayangnya itu rusak pada saat menulis jawaban ini.)

Kesan saya adalah bahwa ini merupakan upaya untuk memformalkan dan mengabstraksi pembuatan subnetwork di dalam jaringan saraf. Yaitu, jika Anda melihat jaringan saraf standar, lapisan-lapisan sepenuhnya terhubung (yaitu, setiap neuron di lapisan 1 memiliki akses ke setiap neuron di lapisan 0, dan itu sendiri diakses oleh setiap neuron di lapisan 2). Tapi ini jelas tidak berguna; salah satu mungkin malah memiliki, katakanlah, n tumpukan paralel lapisan (yang 'kapsul') bahwa setiap mengkhususkan diri pada beberapa tugas yang terpisah (yang mungkin sendiri membutuhkan lebih dari satu layer untuk menyelesaikan berhasil).

Jika saya membayangkan hasilnya dengan benar, topologi grafik yang lebih canggih ini sepertinya adalah sesuatu yang dapat dengan mudah meningkatkan efektivitas dan kemampuan interpretasi dari jaringan yang dihasilkan.


9
Makalah ini sekarang (Oktober 2017) diterbitkan: arxiv.org/pdf/1710.09829.pdf
machinaut

13

Untuk melengkapi jawaban sebelumnya: ada makalah tentang ini yang kebanyakan tentang mempelajari kapsul tingkat rendah dari data mentah, tetapi menjelaskan konsepsi Hinton tentang kapsul di bagian pengantar: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

Perlu juga dicatat bahwa tautan ke pembicaraan MIT dalam jawaban di atas tampaknya berfungsi kembali.

Menurut Hinton, "kapsul" adalah subset neuron dalam lapisan yang menampilkan "parameter instantiasi" yang menunjukkan apakah suatu entitas hadir dalam domain terbatas dan vektor "parameter pose" yang menentukan pose entitas relatif terhadap versi kanonik.

Output parameter oleh kapsul tingkat rendah dikonversi menjadi prediksi untuk pose entitas yang diwakili oleh kapsul tingkat tinggi, yang diaktifkan jika prediksi setuju dan output parameter mereka sendiri (parameter pose tingkat lebih tinggi menjadi rata-rata prediksi yang diterima ).

Hinton berspekulasi bahwa deteksi kebetulan berdimensi tinggi ini adalah untuk apa organisasi mini-kolom di otak. Tujuan utamanya tampaknya menggantikan max pooling yang digunakan dalam jaringan konvolusional, di mana lapisan yang lebih dalam kehilangan informasi tentang pose.


4

Jaringan kapsul mencoba untuk meniru pengamatan Hinton tentang otak manusia pada mesin. Motivasi berasal dari fakta bahwa jaringan saraf membutuhkan pemodelan hubungan spasial yang lebih baik dari bagian-bagian. Alih-alih memodelkan ko-eksistensi, mengabaikan posisi relatif, jaring kapsul mencoba untuk memodelkan transformasi relatif global dari sub-bagian yang berbeda di sepanjang hierarki. Ini adalah trade-off eqivarians vs invarian, seperti yang dijelaskan di atas oleh orang lain.

Oleh karena itu, jaringan ini mencakup kesadaran sudut pandang / orientasi dan merespons secara berbeda terhadap orientasi yang berbeda. Properti ini membuat mereka lebih diskriminatif, sementara berpotensi memperkenalkan kemampuan untuk melakukan estimasi pose karena fitur ruang laten mengandung interpretable, menimbulkan detail spesifik.

Semua ini dilakukan dengan memasukkan lapisan bersarang yang disebut kapsul di dalam lapisan, alih-alih menggabungkan lapisan lain dalam jaringan. Kapsul ini dapat memberikan keluaran vektor alih-alih skalar satu per node.

Kontribusi penting dari makalah ini adalah routing dinamis yang menggantikan standar max-pooling dengan strategi yang cerdas. Algoritma ini menerapkan pengelompokan mean-shift pada output kapsul untuk memastikan bahwa output hanya dikirim ke induk yang sesuai pada layer di atas.

Penulis juga memasangkan kontribusi dengan kehilangan margin dan kehilangan rekonstruksi, yang secara bersamaan membantu dalam mempelajari tugas dengan lebih baik dan menunjukkan hasil mutakhir pada MNIST.

Makalah terbaru bernama Dynamic Routing Between Capsules dan tersedia di Arxiv: https://arxiv.org/pdf/1710.09829.pdf .


3

Berdasarkan pada makalah mereka, Routing Dinamis antar Kapsul

Kapsul adalah sekelompok neuron yang vektor aktivitasnya mewakili parameter instantiasi dari jenis entitas tertentu seperti objek atau bagian objek. Kami menggunakan panjang vektor aktivitas untuk mewakili probabilitas bahwa entitas itu ada dan orientasinya untuk mewakili parameter instantiation. Kapsul aktif pada satu tingkat membuat prediksi, melalui matriks transformasi, untuk parameter instantiasi kapsul tingkat yang lebih tinggi. Ketika banyak prediksi setuju, kapsul level yang lebih tinggi menjadi aktif. Kami menunjukkan bahwa sistem kapsul multi-layer yang terlatih secara diskriminatif mencapai kinerja mutakhir di MNIST dan jauh lebih baik daripada jaringan konvolusional dalam mengenali angka yang sangat tumpang tindih. Untuk mencapai hasil ini kami menggunakan mekanisme perutean-per-perjanjian iteratif: Kapsul tingkat rendah lebih memilih untuk mengirimkan hasilnya ke kapsul tingkat lebih tinggi yang vektor aktivitasnya memiliki produk skalar besar dengan prediksi yang berasal dari kapsul tingkat rendah. Versi terakhir dari makalah ini sedang direvisi untuk memberikan komentar komentar pengulas.


2
Jawaban yang bagus biasanya lebih dari sekadar kutipan. Anda biasanya dapat menyatakan kembali dengan cara yang lebih jelas atau lebih mendalam. Sangat jarang hanya kutipan yang diperlukan untuk membuat jawaban yang baik. Apakah Anda pikir Anda bisa sedikit memperbaiki ini dengan mengedit ?
user58

3

Salah satu keuntungan utama dari jaringan saraf konvolusional adalah keanehannya pada terjemahan. Namun invarian ini datang dengan harga dan itu, itu tidak mempertimbangkan bagaimana fitur yang berbeda terkait satu sama lain. Misalnya, jika kita memiliki gambar wajah, CNN akan mengalami kesulitan membedakan hubungan antara fitur mulut dan fitur hidung. Max pooling layers adalah alasan utama untuk efek ini. Karena ketika kita menggunakan max pooling layer, kita kehilangan lokasi yang tepat dari mulut dan kebisingan dan kita tidak bisa mengatakan bagaimana mereka berhubungan satu sama lain.

Kapsul mencoba untuk tetap memanfaatkan CNN dan memperbaiki kelemahan ini dengan dua cara;

  1. Invarian: mengutip dari makalah ini

Ketika kapsul bekerja dengan benar, kemungkinan entitas visual yang hadir adalah invarian lokal - itu tidak berubah ketika entitas bergerak di atas bermacam-macam kemungkinan penampilan dalam domain terbatas yang dicakup oleh kapsul.

Dengan kata lain, kapsul memperhitungkan keberadaan fitur khusus yang kita cari seperti mulut atau hidung. Properti ini memastikan bahwa kapsul adalah terjemahan yang sama dengan CNN.

  1. Equivariance: alih-alih membuat invarian terjemahan fitur , kapsul akan membuatnya terjemahan-equivarian atau sudut pandang-equivarian. Dengan kata lain, ketika fitur bergerak dan mengubah posisinya dalam gambar, representasi vektor fitur juga akan berubah dengan cara yang sama yang menjadikannya sama. Properti kapsul ini mencoba menyelesaikan kekurangan lapisan penyatuan maks yang saya sebutkan di awal.
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.