Kecerdasan buatan rl-an-introduction

Mengapa tingkat diskonto dalam algoritma REINFORCE muncul dua kali?

Saya membaca buku Reinforcement Learning: An Introduction oleh Richard S. Sutton dan Andrew G. Barto (draft lengkap, 5 November 2017). Pada halaman 271, pseudo-code untuk Metode Gradient Kebijakan-Gradien Episodik disajikan. Melihat pseudo-code ini saya tidak bisa mengerti mengapa tampaknya tingkat diskonto muncul 2 kali, sekali dalam keadaan pembaruan dan kedua …

11 reinforcement-learning algorithm rl-an-introduction reinforce

Pertanyaan yang diberi tag «rl-an-introduction»