2
Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?
Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikutππ\pi Vπ( s ) = E[∑t > 0γtrt|s0= s , π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = …