Dalam SGD suatu jaman akan menjadi presentasi penuh dari data pelatihan, dan kemudian akan ada pembaruan bobot N per jaman (jika ada contoh data N dalam set pelatihan).
Jika sekarang kita melakukan mini-batch sebagai gantinya, katakan dalam batch 20. Apakah satu zaman sekarang terdiri dari pembaruan berat N / 20, atau apakah suatu zaman 'diperpanjang' oleh 20 sehingga berisi jumlah pembaruan berat yang sama?
Saya menanyakan hal ini karena dalam beberapa makalah pembelajaran tampaknya terlalu cepat untuk jumlah zaman yang disebutkan.