Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik?
Tidak.
Kebijakan yang optimal umumnya bersifat deterministik kecuali:
Informasi status penting tidak ada (POMDP). Misalnya, dalam peta di mana agen tidak diizinkan untuk mengetahui lokasi pastinya atau mengingat status sebelumnya, dan status yang diberikan tidak cukup untuk membuat perbedaan antara lokasi. Jika tujuannya adalah untuk mencapai lokasi akhir tertentu, kebijakan optimal dapat mencakup beberapa gerakan acak untuk menghindari macet. Perhatikan bahwa lingkungan dalam hal ini bisa menjadi deterministik (dari perspektif seseorang yang dapat melihat seluruh negara), tetapi masih mengarah pada memerlukan kebijakan stokastik untuk menyelesaikannya.
Ada semacam skenario teori permainan minimum, di mana kebijakan deterministik dapat dihukum oleh lingkungan atau agen lain. Pikirkan gunting / kertas / batu atau dilema tahanan.
Secara intuitif, jika lingkungannya deterministik (yaitu, jika agen dalam keadaan 𝑠 dan mengambil tindakan 𝑎, maka keadaan selanjutnya 𝑠 ′ selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal juga harus deterministik (yaitu, itu harus peta dari negara ke tindakan, dan bukan ke distribusi probabilitas atas tindakan).
Itu tampaknya masuk akal, tetapi Anda dapat mengambil intuisi itu lebih jauh dengan metode apa pun berdasarkan fungsi nilai:
Jika Anda telah menemukan fungsi nilai optimal, maka bertindak dengan rakus sehubungan dengan itu adalah kebijakan yang optimal.
Pernyataan di atas hanyalah pernyataan ulang bahasa alami dari persamaan optimalitas Bellman:
v∗( s ) = maksSebuah∑r , s′p ( r , s′| s,a)(r+γv∗( s′) )
yaitu nilai optimal diperoleh ketika selalu memilih tindakan yang memaksimalkan hadiah plus nilai diskon dari langkah berikutnya. Operasi maksSebuah bersifat deterministik (jika perlu Anda dapat memutus ikatan untuk nilai maks secara deterministik dengan misalnya daftar tindakan yang diurutkan).
Oleh karena itu, setiap lingkungan yang dapat dimodelkan oleh MDP dan dipecahkan dengan metode berbasis nilai (misalnya iterasi nilai, pembelajaran Q) memiliki kebijakan optimal yang deterministik.
Dimungkinkan dalam lingkungan seperti itu bahwa solusi optimal mungkin tidak stokastik sama sekali (yaitu jika Anda menambahkan keacakan ke kebijakan optimal deterministik, kebijakan tersebut akan menjadi sangat buruk). Namun, ketika ada ikatan untuk nilai maksimum untuk satu tindakan atau lebih di satu negara bagian atau lebih maka ada beberapa kebijakan optimal dan deterministik yang setara. Anda dapat membuat kebijakan stokastik yang menggabungkan semua ini dalam kombinasi apa pun, dan itu juga akan optimal.