Mengapa "Kedalaman = Representasi semantik" dalam jaringan saraf convolutional?


8

Saya menonton beberapa video online tentang jaringan konvolusional, dan pembicara sedang mendiskusikan konsep menjalankan filter di atas gambar.

Dia berkata, dan juga ditunjukkan pada gambar di bawah, bahwa "Kedalaman = Representasi semantik".
masukkan deskripsi gambar di sini

Ini kedengarannya bagus, tapi saya tidak yakin apa yang istimewa tentang mengurangi dimensi spasial gambar demi peningkatan kedalaman? Apa yang membuat kedalaman lebih penting daripada dimensi lain? Dimensi hanyalah dimensi, bukan?

EDIT: Saya punya firasat bahwa alasannya ada hubungannya dengan independensi terjemahan ...

Jawaban:


5

Titik kedalaman lapisan dan reduksi piramidal bertahap adalah untuk membangun hierarki representasi invarian spasial, masing-masing lebih kompleks daripada level sebelumnya. Misalnya, pada level terendah, konvolusional mungkin dapat memilih pengaturan piksel yang patut diperhatikan; pada tingkat berikutnya, ia dapat mengembunkan ini menjadi bintik-bintik tertentu, bentuk dasar, tepi, dll .; kemudian pada level yang lebih tinggi dapat mengenali objek yang semakin besar dan kompleks. Saya akan meminjam contoh dari tesis 1 Gerod M. Bonhoff 1pada Hawkins 'Hierarchical Temporal Memory (HTM), yang merupakan konsep yang terkait erat, yang juga memanfaatkan daerah reseptif untuk membangun representasi invarian. Pada tingkat yang lebih tinggi, proses penyaringan memungkinkan konvolusional atau HTM untuk merakit garis dan bentuk individu menjadi objek seperti "ekor anjing" atau "kepala anjing"; pada tahap selanjutnya mereka dapat dikenali sebagai "anjing" atau mungkin varian tertentu, seperti "gembala Jerman."

Hal ini dimungkinkan tidak hanya oleh penumpukan beberapa lapisan, tetapi juga pembagian neuron di dalamnya menjadi daerah reseptif yang terpisah. Daerah penerima meniru "rakitan sel" neuronal yang sebenarnya dan kolom kortikal yang belajar menembak bersama dalam kelompok; ini memungkinkan pengelompokan di sekitar jenis objek tertentu, sementara lapisan tambahan memungkinkan mereka untuk dihubungkan bersama menjadi objek dengan kecanggihan yang meningkat. Penurunan dimensi spasial dalam contoh yang Anda kutip mencerminkan penyempitan daerah reseptif saat kita naik piramida; dimensi ketiga (yaitu kedalaman dalam lapisan, yang bertentangan dengan kedalaman lapisan) meningkat bersamaan sehingga kami dapat memberikan pilihan yang lebih luas dari representasi invarian spasial untuk dipilih dari pada setiap tahap yaitu, setiap filter dalam dimensi kedalaman volume keluaran belajar untuk melihat sesuatu yang berbeda. Jika kita hanya mempersempit piramida pada setiap tahap di sepanjang setiap dimensi, pada akhirnya kita akan dibiarkan dengan hanya sejumlah objek untuk dipilih; diambil cukup jauh, itu mungkin hanya meninggalkan kita dengan satu simpul di atas yang mencerminkan satu pilihan ya-tidak antara "apakah ini anjing atau tidak?" Desain yang lebih fleksibel ini memungkinkan kita untuk memilih lebih banyak kombinasi dari representasi invarian spasial sebelumnya. Saya percaya bahwa ini juga memungkinkan jaring konvolusional untuk memperhitungkan berbagai masalah orientasi, termasuk kemandirian penerjemahan, dengan menambahkan lebih banyak rakitan / kolom sel untuk menangani setiap reorientasi representasi yang tidak tetap. akhirnya kami akan dibiarkan dengan hanya sejumlah objek untuk dipilih; diambil cukup jauh, itu mungkin hanya meninggalkan kita dengan satu simpul di atas yang mencerminkan satu pilihan ya-tidak antara "apakah ini anjing atau tidak?" Desain yang lebih fleksibel ini memungkinkan kita untuk memilih lebih banyak kombinasi dari representasi invarian spasial sebelumnya. Saya percaya bahwa ini juga memungkinkan jaring konvolusional untuk memperhitungkan berbagai masalah orientasi, termasuk kemandirian penerjemahan, dengan menambahkan lebih banyak rakitan / kolom sel untuk menangani setiap reorientasi representasi yang tidak tetap. akhirnya kami akan dibiarkan dengan hanya sejumlah objek untuk dipilih; diambil cukup jauh, itu mungkin hanya meninggalkan kita dengan satu simpul di atas yang mencerminkan satu pilihan ya-tidak antara "apakah ini anjing atau tidak?" Desain yang lebih fleksibel ini memungkinkan kita untuk memilih lebih banyak kombinasi dari representasi invarian spasial sebelumnya. Saya percaya bahwa ini juga memungkinkan jaring konvolusional untuk memperhitungkan berbagai masalah orientasi, termasuk kemandirian penerjemahan, dengan menambahkan lebih banyak rakitan / kolom sel untuk menangani setiap reorientasi representasi yang tidak tetap. Desain yang lebih fleksibel ini memungkinkan kita untuk memilih lebih banyak kombinasi dari representasi invarian spasial sebelumnya. Saya percaya bahwa ini juga memungkinkan jaring konvolusional untuk memperhitungkan berbagai masalah orientasi, termasuk kemandirian penerjemahan, dengan menambahkan lebih banyak rakitan / kolom sel untuk menangani setiap reorientasi representasi yang tidak tetap. Desain yang lebih fleksibel ini memungkinkan kita untuk memilih lebih banyak kombinasi dari representasi invarian spasial sebelumnya. Saya percaya bahwa ini juga memungkinkan jaring konvolusional untuk memperhitungkan berbagai masalah orientasi, termasuk kemandirian penerjemahan, dengan menambahkan lebih banyak rakitan / kolom sel untuk menangani setiap reorientasi representasi yang tidak tetap.

Seperti tutorial yang sangat baik di github ini menjelaskan,

Pertama, kedalaman volume output adalah hiperparameter: sesuai dengan jumlah filter yang ingin kita gunakan, masing-masing belajar mencari sesuatu yang berbeda dalam input. Sebagai contoh, jika Lapisan Konvolusional pertama mengambil sebagai input gambar mentah, maka neuron yang berbeda di sepanjang dimensi kedalaman dapat diaktifkan di hadapan berbagai berorientasi bermata, atau gumpalan warna. Kita akan merujuk pada satu set neuron yang semuanya melihat wilayah input yang sama sebagai kolom kedalaman (beberapa orang juga lebih suka istilah serat).

Jenis desain ini terinspirasi oleh berbagai struktur yang masuk akal secara biologis yang ditemukan pada organisme sebenarnya, seperti mata kucing. Jika apa yang saya katakan di sini tidak cukup jelas untuk menjawab pertanyaan Anda, saya dapat menambahkan banyak detail lebih lanjut, termasuk lebih banyak contoh, beberapa berdasarkan pada organ sebenarnya dari jenis itu.

1 Lihat hlm. 26-27, 36 76 Bonhoff, Gerod M., Menggunakan Memori Temporal Hirarkis untuk Mendeteksi Aktivitas Jaringan Anomali. Tesis disampaikan Maret 2008 ke fakultas Institut Teknologi Angkatan Udara di Pangkalan Angkatan Udara Wright-Patterson, Ohio.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.