Dalam Pelatihan On-Batch Besar untuk Pembelajaran Jauh: Kesenjangan Generalisasi dan Sharp Minima ada beberapa pernyataan simpang siur:
Telah diamati dalam prakteknya bahwa ketika menggunakan batch yang lebih besar ada penurunan dalam kualitas model, yang diukur dengan kemampuannya untuk menggeneralisasi [...]
metode batch besar cenderung menyatu dengan minimisasi yang tajam dari fungsi pelatihan dan pengujian — dan seperti diketahui, minima yang tajam menyebabkan generalisasi yang lebih buruk. n. Sebaliknya, metode batch kecil secara konsisten menyatu dengan minimizer rata, dan percobaan kami mendukung pandangan umum bahwa ini disebabkan oleh kebisingan bawaan dalam estimasi gradien.
Dari tesis master saya : Oleh karena itu pilihan ukuran mini-batch mempengaruhi:
- Waktu pelatihan hingga konvergensi : Tampaknya ada titik manis. Jika ukuran bets sangat kecil (misalnya 8), kali ini naik. Jika ukuran bets sangat besar, itu juga lebih tinggi dari minimum.
- Waktu pelatihan per zaman : Lebih besar menghitung lebih cepat (efisien)
- Kualitas model yang dihasilkan : Semakin rendah semakin baik karena generalisasi yang lebih baik (?)
Penting untuk mencatat interaksi hyper-parameter : Ukuran batch dapat berinteraksi dengan hyper-parameter lainnya, terutama tingkat pembelajaran. Dalam beberapa percobaan interaksi ini mungkin mempersulit untuk mengisolasi efek ukuran bets sendirian pada kualitas model. Interaksi kuat lainnya adalah dengan penghentian awal untuk regularisasi.
Lihat juga