Pertanyaan yang sangat bagus, karena belum ada jawaban pasti untuk pertanyaan ini. Ini adalah bidang penelitian aktif.
Pada akhirnya, arsitektur jaringan Anda terkait dengan dimensi data Anda. Karena jaringan saraf adalah aproksimasi universal, selama jaringan Anda cukup besar, ia memiliki kemampuan untuk menyesuaikan data Anda.
Satu-satunya cara untuk benar-benar mengetahui arsitektur mana yang paling berhasil adalah dengan mencoba semuanya, dan kemudian memilih yang terbaik. Tetapi tentu saja, dengan jaringan saraf, itu cukup sulit karena setiap model membutuhkan waktu untuk dilatih. Apa yang dilakukan beberapa orang adalah pertama-tama melatih model yang "terlalu besar" dengan sengaja, dan kemudian memangkasnya dengan menghilangkan bobot yang tidak berkontribusi banyak pada jaringan.
Bagaimana jika jaringan saya "terlalu besar"
Jika jaringan Anda terlalu besar, itu bisa jadi pakaian yang berlebihan atau kesulitan untuk berkumpul. Secara intuitif, yang terjadi adalah jaringan Anda mencoba menjelaskan data Anda dengan cara yang lebih rumit dari yang seharusnya. Ini seperti mencoba menjawab pertanyaan yang bisa dijawab dengan satu kalimat dengan esai 10 halaman. Mungkin sulit untuk menyusun jawaban yang begitu panjang, dan mungkin ada banyak fakta yang tidak perlu dilontarkan. ( Lihat pertanyaan ini )
Bagaimana jika jaringan saya "terlalu kecil"
Di sisi lain, jika jaringan Anda terlalu kecil, itu akan kurang sesuai dengan data Anda dan karenanya. Itu seperti menjawab dengan satu kalimat ketika Anda seharusnya menulis esai 10 halaman. Sebagus jawaban Anda, Anda akan kehilangan beberapa fakta yang relevan.
Memperkirakan ukuran jaringan
Jika Anda mengetahui dimensi data Anda, Anda dapat mengetahui apakah jaringan Anda cukup besar. Untuk memperkirakan dimensi data Anda, Anda bisa mencoba menghitung peringkatnya. Ini adalah ide inti dalam cara orang mencoba memperkirakan ukuran jaringan.
Namun, itu tidak sesederhana itu. Memang, jika jaringan Anda perlu 64-dimensi, apakah Anda membangun satu lapisan tersembunyi berukuran 64 atau dua lapis ukuran 8? Di sini, saya akan memberi Anda beberapa intuisi tentang apa yang akan terjadi dalam kedua kasus tersebut.
Lebih dalam
Masuk lebih dalam berarti menambahkan lebih banyak lapisan tersembunyi. Apa yang dilakukannya adalah memungkinkan jaringan untuk menghitung fitur yang lebih kompleks. Dalam Convolutional Neural Networks, misalnya, telah sering diperlihatkan bahwa beberapa layer pertama mewakili fitur "level rendah" seperti pinggiran, dan layer terakhir mewakili fitur "level tinggi" seperti wajah, bagian tubuh, dll.
Anda biasanya perlu menggali lebih dalam jika data Anda sangat tidak terstruktur (seperti gambar) dan perlu diproses sedikit sebelum informasi yang berguna dapat diambil darinya.
Menjadi lebih luas
Melangkah lebih dalam berarti menciptakan fitur yang lebih kompleks, dan menjadi "lebih luas" berarti menciptakan lebih banyak fitur ini. Mungkin saja masalah Anda dapat dijelaskan dengan fitur yang sangat sederhana tetapi harus ada banyak di antaranya. Biasanya, layer menjadi lebih sempit menjelang akhir jaringan karena alasan sederhana bahwa fitur kompleks membawa lebih banyak informasi daripada yang sederhana, dan karena itu Anda tidak memerlukan banyak.