Gagasan menerapkan filter untuk melakukan sesuatu seperti mengidentifikasi tepi, adalah ide yang cukup keren.
Misalnya, Anda dapat mengambil gambar 7. Dengan beberapa filter, Anda dapat berakhir dengan gambar yang diubah yang menekankan berbagai karakteristik gambar asli. 7 yang asli:
dapat dialami oleh jaringan sebagai:
Perhatikan bagaimana setiap gambar telah mengekstraksi tepi yang berbeda dari yang asli 7.
Ini semua hebat, tetapi kemudian, katakanlah lapisan berikutnya dalam jaringan Anda adalah lapisan Max Pooling.
Pertanyaan saya adalah, secara umum, bukankah ini sedikit berlebihan? Kami hanya sangat berhati-hati dan sengaja mengidentifikasi tepi menggunakan filter - sekarang, kami tidak lagi peduli tentang hal itu, karena kami telah menghancurkan nilai-nilai piksel! Harap perbaiki jika saya salah, tetapi kami beralih dari 25 X 25 ke 2 X 2! Mengapa tidak langsung saja ke Max Pooling, bukankah pada dasarnya kita akan mendapatkan hal yang sama?
Sebagai perpanjangan pertanyaan saya, saya bertanya-tanya apa yang akan terjadi jika, secara kebetulan, masing-masing dari 4 kotak semua kebetulan memiliki piksel dengan nilai maksimal yang sama. Tentunya ini bukan kasus yang langka, bukan? Tiba-tiba semua gambar latihan Anda terlihat sama persis.
The pooling operation provides a form of translation invariance
?