Apakah ada literatur yang meneliti pilihan ukuran minibatch saat melakukan stochastic gradient descent? Dalam pengalaman saya, ini tampaknya menjadi pilihan empiris, biasanya ditemukan melalui validasi silang atau menggunakan berbagai aturan praktis.
Apakah ide yang baik untuk secara perlahan meningkatkan ukuran minibatch saat kesalahan validasi berkurang? Apa efek ini pada kesalahan generalisasi? Apakah saya lebih baik menggunakan minibatch yang sangat kecil dan memperbarui model saya ratusan ribu kali? Apakah saya akan lebih baik dengan angka seimbang di suatu tempat antara sangat kecil, dan batch?
Haruskah saya mengukur ukuran minibatch saya dengan ukuran dataset, atau jumlah fitur yang diharapkan dalam dataset?
Saya jelas punya banyak pertanyaan tentang mengimplementasikan skema pembelajaran minibatch. Sayangnya, sebagian besar makalah yang saya baca tidak benar-benar menentukan bagaimana mereka memilih hyperparameter ini. Saya telah mendapatkan beberapa keberhasilan dari penulis seperti Yann LeCun, terutama dari Trik koleksi makalah Perdagangan. Namun, saya masih belum melihat pertanyaan-pertanyaan ini ditangani sepenuhnya. Adakah yang punya rekomendasi untuk makalah, atau saran mengenai kriteria apa yang bisa saya gunakan untuk menentukan ukuran minibatch yang baik ketika mencoba mempelajari fitur?