Pertanyaan yang diberi tag «deterministic-policy»

2
Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?
Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikutππ\pi Vπ( s ) = E[∑t > 0γtrt|s0= s , π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.