Pertanyaan yang diberi tag «rl-an-introduction»

3
Mengapa tingkat diskonto dalam algoritma REINFORCE muncul dua kali?
Saya membaca buku Reinforcement Learning: An Introduction oleh Richard S. Sutton dan Andrew G. Barto (draft lengkap, 5 November 2017). Pada halaman 271, pseudo-code untuk Metode Gradient Kebijakan-Gradien Episodik disajikan. Melihat pseudo-code ini saya tidak bisa mengerti mengapa tampaknya tingkat diskonto muncul 2 kali, sekali dalam keadaan pembaruan dan kedua …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.