Saya mencoba memahami makalah terkenal "Bermain Atari dengan Pembelajaran Penguatan Jauh" ( pdf ). Saya tidak jelas tentang perbedaan antara zaman dan episode . Dalam algoritma , loop luar lebih dari episode , sedangkan pada gambar sumbu x diberi label zaman . Dalam konteks pembelajaran penguatan, saya tidak jelas apa artinya zaman. Apakah zaman merupakan loop luar di sekitar loop episode?
1
Jadi ... berapa banyak episode yang membuat zaman?
—
Lewen