Pertanyaan ini bermuara pada "bagaimana lapisan lilit persis pekerjaan.
Misalkan saya memiliki gambar skala abu-abu . Jadi gambar memiliki satu saluran. Di lapisan pertama, saya menerapkan konvolusi dengan filter dan bantalan . Lalu saya punya layer konvolusi lain dengan konvolusi dan filter . Berapa banyak peta fitur yang saya miliki?3 × 3 k 1 5 × 5 k 2
Konvolusi tipe 1
Lapisan pertama dieksekusi. Setelah itu, saya punya peta fitur (satu untuk setiap filter). Masing-masing memiliki ukuran . Setiap piksel tunggal dibuat dengan mengambil piksel dari gambar input empuk. n × m 3 ⋅ 3 = 9
Kemudian lapisan kedua diterapkan. Setiap filter diterapkan secara terpisah untuk masing-masing peta fitur . Ini menghasilkan peta fitur untuk setiap peta fitur . Jadi ada fitur peta setelah lapisan kedua. Setiap piksel tunggal dari masing-masing peta fitur baru dibuat dengan mengambil "piksel" dari peta fitur empuk dari sebelumnya.k 1 k 1 × k 2 5 ⋅ 5 = 25
Sistem harus mempelajari .
Ketik konvolusi 2.1
Seperti sebelumnya: Lapisan pertama dijalankan. Setelah itu, saya punya peta fitur (satu untuk setiap filter). Masing-masing memiliki ukuran . Setiap piksel tunggal dibuat dengan mengambil piksel dari gambar input empuk. n × m 3 ⋅ 3 = 9
Tidak seperti sebelumnya: Kemudian lapisan kedua diterapkan. Setiap filter diterapkan ke wilayah yang sama, tetapi semua peta fitur dari sebelumnya. Ini menghasilkan peta fitur secara total setelah lapisan kedua dieksekusi. Setiap piksel tunggal dari masing-masing peta fitur baru dibuat dengan mengambil "piksel" dari peta fitur empuk dari sebelumnya.k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2
Sistem harus mempelajari .
Ketik konvolusi 2.2
Seperti di atas, tetapi alih-alih memiliki parameter per filter yang harus dipelajari dan disalin secara sederhana untuk peta fitur input lainnya, Anda memiliki parameter yang harus dipelajari.
Pertanyaan
- Apakah tipe 1 atau tipe 2 biasanya digunakan?
- Jenis apa yang digunakan di Alexnet ?
- Jenis apa yang digunakan di GoogLeNet ?
- Jika Anda mengatakan tipe 1: Mengapa convolutions masuk akal? Bukankah mereka hanya mengalikan data dengan konstanta?
- Jika Anda mengatakan tipe 2: Tolong jelaskan biaya kuadratik ("Misalnya, dalam jaringan visi yang mendalam, jika dua lapisan konvolusional dirantai, setiap peningkatan seragam dalam jumlah filternya menghasilkan peningkatan perhitungan kuadratik")
Untuk semua jawaban, tolong berikan beberapa bukti (makalah, buku teks, dokumentasi kerangka kerja) bahwa jawaban Anda benar.
Pertanyaan bonus 1
Apakah pengumpulan diterapkan selalu hanya per peta fitur atau apakah itu juga dilakukan pada beberapa peta fitur?
Pertanyaan bonus 2
Saya relatif yakin bahwa tipe 1 sudah benar dan ada yang salah dengan kertas GoogLe. Tapi ada konvolusi 3D juga. Katakanlah Anda memiliki 1337 peta fitur ukuran dan Anda menerapkan filter . Bagaimana Anda menggeser filter di atas peta fitur? (Kiri ke kanan, atas ke bawah, peta fitur pertama hingga peta fitur terakhir?) Apakah penting selama Anda melakukannya secara konsisten?
Penelitian saya
- Saya sudah membaca dua makalah dari atas, tetapi saya masih tidak yakin apa yang digunakan.
- Saya sudah membaca dokumentasi lasagna
- Saya sudah membaca dokumentasi theano
- Saya sudah membaca jawaban tentang Memahami jaringan saraf convolutional (tanpa mengikuti semua tautan)
- Saya telah membaca Convolutional Neural Networks (LeNet) . Terutama gambar 1 membuat saya relatif yakin bahwa Tipe 2.1 adalah yang benar. Ini juga cocok dengan komentar "biaya kuadratik" di GoogLe Net dan beberapa pengalaman praktis yang saya miliki dengan Caffee.