Convolutional Nets (CNN) mengandalkan konvolusi matematis (misalnya konvolusi 2D atau 3D), yang biasa digunakan untuk pemrosesan sinyal. Gambar adalah jenis sinyal, dan konvolusi dapat digunakan secara setara pada suara, getaran, dll. Jadi, pada prinsipnya, CNN dapat menemukan aplikasi untuk sinyal apa pun, dan mungkin lebih.
Dalam praktiknya, sudah ada yang bekerja pada NLP (seperti yang disebutkan oleh Matthew Graves), di mana beberapa orang memproses teks dengan CNN daripada jaringan rekursif. Beberapa karya lain berlaku untuk pemrosesan suara (tidak ada referensi di sini, tapi saya belum menerbitkan karya yang sedang berlangsung).
Konten asli: Sebagai jawaban atas pertanyaan judul asli, yang telah berubah sekarang. Mungkin perlu menghapus yang ini .
Penelitian pada jaringan permusuhan (dan yang terkait) menunjukkan bahwa bahkan jaringan yang dalam dapat dengan mudah dibodohi , mengarahkan mereka untuk melihat seekor anjing (atau benda apa pun) dalam apa yang tampaknya merupakan suara acak ketika manusia melihatnya (artikel tersebut memiliki contoh yang jelas).
Masalah lain adalah kekuatan generalisasi dari jaringan saraf. Jaring konvolusional telah memukau dunia dengan kemampuan mereka untuk menggeneralisasi jauh lebih baik daripada teknik lainnya. Tetapi jika jaringan hanya mengumpankan gambar kucing, ia hanya akan mengenali kucing (dan mungkin melihat kucing di mana-mana, seperti hasil jaringan permusuhan). Dengan kata lain, bahkan CN mengalami kesulitan menyamaratakan terlalu jauh dari apa yang mereka pelajari.
Batas pengakuan sulit untuk didefinisikan secara tepat. Saya hanya akan mengatakan bahwa keragaman data pembelajaran mendorong batas (saya menganggap detail lebih lanjut harus mengarah ke tempat yang lebih tepat untuk diskusi).