Statistik dan Big Data stochastic-policy

Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikutππ\pi Vπ( s ) = E[∑t > 0γtrt|s0= s , π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = …

8 reinforcement-learning deterministic-policy stochastic-policy

Pertanyaan yang diberi tag «stochastic-policy»