Karakteristik gambar yang membuatnya dapat diklasifikasi dengan jaringan saraf yang dalam adalah ada banyak fitur (mungkin jutaan jika tidak milyaran piksel dengan RGB, intensitas, dll.) Dan jika Anda memiliki label yang akurat, itu bukan data yang berisik. Kamera saat ini sangat bagus dan tidak salah mengukur apa pun. Berkat Internet, kami sekarang memiliki banyak gambar berlabel akurat. Jaringan yang dalam dapat mengekspresikan fungsi rumit yang sewenang-wenang, yang merupakan masalah dengan data bising karena Anda dapat dengan mudah menyesuaikan kebisingan, karenanya mengapa banyak metode pembelajaran cenderung menghukum model yang rumit. Namun, dalam hal pengenalan gambar, fungsi sebenarnya tampaknya sangat rumit, kami tidak tahu seperti apa bentuk fungsionalnya, dan kami bahkan tidak tahu fitur apa yang relevan dalam banyak kasus.
Ini tidak berarti Anda tidak dapat menggunakan jaringan dalam untuk mempelajari fungsi yang tidak ada hubungannya dengan gambar. Anda hanya perlu sangat berhati-hati tentang sisi buruknya, sebagian besar hal itu sangat rentan terhadap overfitting, tetapi juga bahwa itu mahal secara komputasi dan dapat membutuhkan waktu lama untuk melatih (tidak banyak masalah hari ini dengan SGD dan GPU paralel). Kelemahan lainnya adalah Anda memiliki interpretabilitas model yang sangat sedikit atau tidak ada, yang tidak terlalu penting untuk klasifikasi gambar. Kami hanya mencoba membuat komputer untuk mengenali perbedaan antara simpanse dan orangutan. Pemahaman manusia tentang formula itu tidak masalah. Untuk domain lain, terutama diagnosa medis, penelitian kebijakan, dll., Anda ingin atau bahkan mungkin membutuhkan pemahaman manusia.