Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikut
sebuah output point?
Dalam definisi di atas, kami mengambil harapan. Apa harapan ini berakhir?
Bisakah kebijakan mengarah ke rute yang berbeda?