Notasi yang akan saya gunakan adalah dari dua kuliah berbeda oleh David Silver dan juga diinformasikan oleh slide ini .
Persamaan Bellman yang diharapkan adalah
vπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′vπ(s′))(1)
Jika kita membiarkannya
Pπss′=∑a∈Aπ(a|s)Pass′(2)
dan
Rπs=∑a∈Aπ(a|s)Ras(3)
maka kita bisa menulis ulang (1) sebagai
vπ(s)=Rπs+γ∑s′∈SPπss′vπ(s′)(4)
Ini dapat ditulis dalam bentuk matriks
⎡⎣⎢⎢vπ(1)⋮vπ(n)⎤⎦⎥⎥=⎡⎣⎢⎢Rπ1⋮Rπn⎤⎦⎥⎥+γ⎡⎣⎢⎢Pπ11⋮Pπn1…⋱…Pπ1n⋮Pπnn⎤⎦⎥⎥⎡⎣⎢⎢vπ(1)⋮vπ(n)⎤⎦⎥⎥(5)
Atau, lebih kompak,
vπ=Rπ+γPπvπ(6)
Perhatikan bahwa kedua sisi (6) adalah nvektor -dimensi. Sinin=|S|adalah ukuran ruang keadaan. Kami kemudian dapat mendefinisikan operatorTπ:Rn→Rn sebagai
Tπ(v)=Rπ+γPπv(7)
untuk apa saja v∈Rn. Ini adalah operator Bellman yang diharapkan.
Demikian pula, Anda dapat menulis ulang persamaan optimalitas Bellman
v∗(s)=maxa∈A(Ras+γ∑s′∈SPass′v∗(s′))(8)
sebagai operator optimalitas Bellman
T∗(v)=maxa∈A(Ra+γPav)(9)
Operator Bellman adalah "operator" di mana mereka memetakan dari satu titik ke titik lain dalam ruang vektor nilai-nilai negara, Rn.
Menulis ulang persamaan Bellman sebagai operator berguna untuk membuktikan bahwa algoritma pemrograman dinamis tertentu (misalnya iterasi kebijakan, iterasi nilai) bertemu menjadi titik tetap yang unik. Kegunaan ini datang dalam bentuk badan kerja yang ada dalam teori operator, yang memungkinkan kita untuk menggunakan properti khusus dari operator Bellman.
Secara khusus, fakta bahwa operator Bellman adalah kontraksi memberikan hasil yang bermanfaat, untuk kebijakan apa punπ dan setiap vektor awal v,
limk→∞(Tπ)kv=vπ(10)
limk→∞(T∗)kv=v∗(11)
dimana vπ adalah nilai kebijakan π dan v∗ adalah nilai kebijakan yang optimal π∗. Buktinya karena teorema pemetaan kontraksi .