Pendekatan terbaik adalah mengumpulkan data sebanyak yang Anda bisa dengan nyaman. Kemudian mulailah dengan proyek dan buat model data.
Sekarang Anda dapat mengevaluasi model Anda untuk melihat apakah ia memiliki Bias Tinggi atau Varians Tinggi.
Varians Tinggi : Dalam situasi ini Anda akan melihat bahwa kesalahan Validasi Silang lebih tinggi dari kesalahan Pelatihan setelah konvergensi. Ada kesenjangan yang signifikan jika Anda merencanakan hal yang sama terhadap ukuran data pelatihan.
Bias Tinggi : Dalam situasi ini kesalahan Cross-Validasi sedikit lebih tinggi dari kesalahan pelatihan yang itu sendiri tinggi ketika diplot terhadap ukuran data pelatihan. Dengan memplot terhadap ukuran data pelatihan yang saya maksud, Anda dapat memasukkan himpunan bagian dari data pelatihan yang Anda miliki dan terus menambah ukuran subset dan kesalahan plot.
Jika Anda melihat model Anda memiliki varian tinggi (pakaian berlebih), menambahkan lebih banyak data biasanya akan membantu berbeda dengan model dengan bias tinggi (pakaian kurang bagus) di mana menambahkan data pelatihan baru tidak membantu.
Juga per kelas Anda harus mencoba untuk mendapatkan jumlah gambar yang sama jika tidak set data dapat miring (lebih dari satu jenis).
Saya juga menyarankan jika Anda menggunakan TensorFlow , baca lebih lanjut tentang Pengelompokan Gambar INCEPTION oleh GOOGLE . Ini adalah classifier yang sudah terlatih pada database gambar google dan Anda dapat menggunakannya untuk gambar Anda, sehingga persyaratan untuk jumlah gambar turun secara drastis.