Saya tidak berpikir ada jawaban yang pasti untuk pertanyaan Anda. Tetapi saya pikir kebijaksanaan konvensional berlaku sebagai berikut:
Pada dasarnya, ketika ruang hipotesis dari algoritma pembelajaran bertambah, algoritma tersebut dapat mempelajari struktur yang lebih kaya dan lebih kaya. Tetapi pada saat yang sama, algoritma menjadi lebih rentan terhadap overfitting dan kesalahan generalisasinya cenderung meningkat.
Jadi pada akhirnya, untuk setiap dataset yang diberikan, disarankan untuk bekerja dengan model minimal yang memiliki kapasitas yang cukup untuk mempelajari struktur data yang sebenarnya. Tetapi ini adalah saran yang sangat bergelombang, karena biasanya "struktur data yang sebenarnya" tidak diketahui, dan seringkali bahkan kapasitas model kandidat hanya dipahami secara samar-samar.
Ketika datang ke jaringan saraf, ukuran ruang hipotesis dikendalikan oleh jumlah parameter. Dan tampaknya untuk sejumlah parameter tertentu (atau urutan besarnya tetap), semakin dalam memungkinkan model untuk menangkap struktur yang lebih kaya (misalnya makalah ini ).
Ini sebagian dapat menjelaskan keberhasilan model yang lebih dalam dengan parameter yang lebih sedikit: VGGNet (dari 2014) memiliki 16 lapisan dengan ~ 140 juta parameter, sementara ResNet (dari 2015) mengalahkannya dengan 152 lapisan tetapi hanya ~ 2 juta parameter
(sebagai sisi, model yang lebih kecil mungkin secara komputasi lebih mudah untuk dilatih - tetapi saya tidak berpikir itu merupakan faktor utama dengan sendirinya - karena kedalaman sebenarnya mempersulit pelatihan)
Perhatikan bahwa tren ini (lebih dalam, lebih sedikit parameter) sebagian besar hadir dalam tugas terkait visi dan jaringan konvolusional, dan ini membutuhkan penjelasan khusus domain. Jadi inilah perspektif lain:
Setiap "neuron" dalam lapisan konvolusional memiliki "bidang reseptif", yang merupakan ukuran dan bentuk input yang memengaruhi setiap output. Secara intuitif, setiap kernel menangkap semacam hubungan antara input terdekat. Dan kernel kecil (yang umum dan disukai) memiliki bidang reseptif kecil, sehingga mereka dapat memberikan informasi hanya mengenai hubungan lokal.
Tetapi ketika Anda masuk lebih dalam, bidang reseptif dari masing-masing neuron sehubungan dengan beberapa lapisan sebelumnya menjadi lebih besar. Jadi lapisan dalam dapat menyediakan fitur dengan makna semantik global dan detail abstrak (hubungan relasi ... relasi objek), sementara hanya menggunakan kernel kecil (yang mengatur hubungan yang dipelajari jaringan, dan membantu konvergen dan generalisasi).
Jadi kegunaan jaringan konvolusional yang mendalam dalam visi komputer dapat sebagian dijelaskan oleh struktur spasial gambar dan video. Mungkin saja waktu akan mengatakan bahwa untuk berbagai jenis masalah, atau untuk arsitektur non-konvolusional, kedalaman sebenarnya tidak berfungsi dengan baik.