1
Haruskah saya mengambil elemen acak untuk keturunan gradien mini-batch?
Ketika menerapkan gradient descent mini-batch untuk jaringan saraf, apakah penting untuk mengambil elemen acak di setiap mini-batch? Atau apakah cukup dengan mengocok elemen di awal pelatihan satu kali? (Saya juga tertarik pada sumber yang jelas mengatakan apa yang mereka lakukan.)