CNN akan belajar mengenali pola lintas ruang. Jadi, seperti yang Anda katakan, CNN akan belajar mengenali komponen gambar (misalnya, garis, kurva, dll.) Dan kemudian belajar menggabungkan komponen ini untuk mengenali struktur yang lebih besar (misalnya, wajah, objek, dll.).
Anda bisa mengatakan, dengan cara yang sangat umum, bahwa RNN juga akan belajar mengenali pola dari waktu ke waktu. Jadi RNN yang dilatih untuk menerjemahkan teks mungkin belajar bahwa "anjing" harus diterjemahkan secara berbeda jika didahului dengan kata "panas".
Namun mekanisme di mana kedua jenis NN mewakili pola-pola ini berbeda. Dalam hal CNN, Anda mencari pola yang sama pada semua subbidang gambar yang berbeda. Dalam kasus RNN Anda (dalam kasus paling sederhana) memberi makan lapisan tersembunyi dari langkah sebelumnya sebagai input tambahan ke langkah berikutnya. Sementara RNN membangun memori dalam proses ini, RNN tidak mencari pola yang sama pada irisan waktu yang berbeda dengan cara yang sama seperti CNN mencari pola yang sama di berbagai wilayah ruang yang berbeda.
Saya juga harus mencatat bahwa ketika saya mengatakan "waktu" dan "ruang" di sini, itu tidak boleh dianggap terlalu harfiah. Anda dapat menjalankan RNN pada gambar tunggal untuk penulisan gambar, misalnya, dan arti "waktu" hanyalah urutan di mana bagian-bagian berbeda dari gambar diproses. Jadi objek yang awalnya diproses akan menginformasikan judul objek yang kemudian diproses.