Saya kira yang paling penting adalah bahwa sampel dalam data Anda tersebar dengan baik, karena tidak peduli berapa banyak data yang Anda miliki, lebih banyak data akan selalu lebih baik. Lagipula, jika Anda mencoba untuk belajar membedakan antara gambar kucing dan anjing, Anda tidak dapat mengharapkan model Anda bekerja dengan baik jika Anda hanya memberinya gambar kucing.
Seperti yang disarankan dalam jawaban oleh Kevin L , masuk akal untuk mempertimbangkan perbedaan antara kesalahan pelatihan dan kesalahan pengujian. Jika data pengujian Anda tidak bergantung pada data pelatihan Anda, ini memberikan indikasi seberapa baik model Anda digeneralisasikan ke data yang tidak tersedia. Sesuatu yang ingin saya tambahkan adalah fakta bahwa perbedaan besar antara kesalahan pelatihan dan pengujian hanya memberi tahu Anda bahwa model Anda tidak menggeneralisasi dengan baik, yaitu Anda terlalu cocok dengan data pelatihan. Lebih banyak data mungkin akan membantu, karena sekarang jaringan juga perlu memodelkan titik data tambahan, sehingga tidak bisa memakai terlalu banyak. Namun, mungkin lebih bermanfaat untuk mengubah model Anda sedemikian rupa sehingga lebih umum. Bab ini dari buku yang bagus menjelaskan jenis-jenis regularisasi apa yang ada dan bagaimana mereka dapat diterapkan dalam jaringan untuk mendapatkan generalisasi yang lebih baik.
Jika Anda mencari ukuran yang lebih kuantitatif, saya baru-baru ini menemukan pertanyaan ini pada quora. Ini tentang auto-encoder, tapi saya kira itu juga harus berlaku untuk contoh Anda. Saya tidak tahu apakah ini benar (tolong beri tahu saya), tetapi saya akan beralasan bahwa misalnya untuk MNIST, orang dapat berargumen bahwa Anda mencoba mengurangi gambar dengan maksimum 28 * 28 * 8 * 10 000 = 62 720 000 bit entropi ke sepuluh kelas dalam satu pengkodean panas dengan 10 * 10 * 10 000 = 1 000 000 bit entropi. Karena kita hanya tertarik pada 1 000 000 bit entropi pada output, kita dapat mengatakan bahwa dengan 1 000 000 parameter, setiap parameter mewakili satu bit, yaitu 1e-4 bit per sampel. Ini berarti Anda akan membutuhkan lebih banyak data. Atau Anda memiliki terlalu banyak parameter, karena misalnya dengan 100 parameter, Anda memiliki 10.000 bit per parameter dan karenanya 1 bit per sampel. Namun,