Apa operator Bellman dalam pembelajaran penguatan?


10

Dalam matematika, kata operator dapat merujuk ke beberapa konsep yang berbeda tetapi terkait. Operator dapat didefinisikan sebagai fungsi antara dua ruang vektor, dapat didefinisikan sebagai fungsi di mana domain dan codomain adalah sama, atau dapat didefinisikan sebagai fungsi dari fungsi (yang merupakan vektor) ke fungsi lain (untuk contoh, operator diferensial ), yaitu, fungsi tingkat tinggi (jika Anda terbiasa dengan pemrograman fungsional).

Apa operator Bellman dalam pembelajaran penguatan (RL)? Mengapa kita membutuhkannya? Bagaimana operator Bellman terkait dengan persamaan Bellman di RL?


Beberapa makalah yang berkaitan dengan topik ini adalah Metode Berbasis Fitur untuk Pemrograman Dinamis Skala Besar (oleh John N. Tsitsiklis dan Benjamin Van Roy, 1996), Analisis Pembelajaran Perbedaan Temporal dengan Pendekatan Fungsi (oleh John N. Tsitsiklis dan Benjamin Van Roy, 1997) dan Least-Squares Policy Iteration (oleh Michail G. Lagoudakis dan Ronald Parr, 2003).
nbro

Beberapa makalah terkait lainnya yang saya temukan adalah Proses Keputusan Markov Umum: Pemrograman dinamis dan Algoritma pembelajaran Penguatan (oleh Csaba Szepesvári dan Michael L. Littman, 1997) danϵ-MDPs: Learning in Varying Environments (oleh István Szita, Bálint Takács, András Lörincz, 2002).
nbro

Jawaban:


11

Notasi yang akan saya gunakan adalah dari dua kuliah berbeda oleh David Silver dan juga diinformasikan oleh slide ini .

Persamaan Bellman yang diharapkan adalah

(1)vπ(s)=aAπ(a|s)(Rsa+γsSPssavπ(s))

Jika kita membiarkannya

(2)Pssπ=aAπ(a|s)Pssa
dan
(3)Rsπ=aAπ(a|s)Rsa
maka kita bisa menulis ulang (1) sebagai

(4)vπ(s)=Rsπ+γsSPssπvπ(s)

Ini dapat ditulis dalam bentuk matriks

(5)[vπ(1)vπ(n)]=[R1πRnπ]+γ[P11πP1nπPn1πPnnπ][vπ(1)vπ(n)]

Atau, lebih kompak,

(6)vπ=Rπ+γPπvπ

Perhatikan bahwa kedua sisi (6) adalah nvektor -dimensi. Sinin=|S|adalah ukuran ruang keadaan. Kami kemudian dapat mendefinisikan operatorTπ:RnRn sebagai

(7)Tπ(v)=Rπ+γPπv

untuk apa saja vRn. Ini adalah operator Bellman yang diharapkan.

Demikian pula, Anda dapat menulis ulang persamaan optimalitas Bellman

(8)v(s)=maxaA(Rsa+γsSPssav(s))

sebagai operator optimalitas Bellman

(9)T(v)=maxaA(Ra+γPav)

Operator Bellman adalah "operator" di mana mereka memetakan dari satu titik ke titik lain dalam ruang vektor nilai-nilai negara, Rn.

Menulis ulang persamaan Bellman sebagai operator berguna untuk membuktikan bahwa algoritma pemrograman dinamis tertentu (misalnya iterasi kebijakan, iterasi nilai) bertemu menjadi titik tetap yang unik. Kegunaan ini datang dalam bentuk badan kerja yang ada dalam teori operator, yang memungkinkan kita untuk menggunakan properti khusus dari operator Bellman.

Secara khusus, fakta bahwa operator Bellman adalah kontraksi memberikan hasil yang bermanfaat, untuk kebijakan apa punπ dan setiap vektor awal v,

(10)limk(Tπ)kv=vπ

(11)limk(T)kv=v

dimana vπ adalah nilai kebijakan π dan v adalah nilai kebijakan yang optimal π. Buktinya karena teorema pemetaan kontraksi .

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.