Turunkan Persamaan Bellman dalam Pembelajaran Penguatan


Jawaban:


7

Ini adalah jawaban untuk semua orang yang bertanya-tanya tentang matematika yang bersih dan terstruktur di belakangnya (yaitu jika Anda termasuk dalam kelompok orang yang tahu apa variabel acak dan bahwa Anda harus menunjukkan atau berasumsi bahwa variabel acak memiliki kerapatan maka ini adalah jawaban untuk Anda ;-)):

Pertama-tama kita perlu memiliki bahwa Proses Keputusan Markov hanya memiliki sejumlah terbatas kartu, yaitu kita perlu bahwa ada set kepadatan terbatas , masing-masing milik variabel , yaitu untuk semua dan peta sedemikian sehingga (yaitu dalam automata di belakang MDP, mungkin ada banyak negara bagian yang tak terhingga tetapi hanya ada banyak sekali distribusi- melekat pada transisi yang mungkin tak terbatas antara negara-negara)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Teorema 1 : Misalkan (yaitu variabel acak nyata yang dapat diintegrasikan) dan biarkan menjadi variabel acak lain sehingga memiliki kerapatan yang sama maka XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Bukti : Pada dasarnya dibuktikan di sini oleh Stefan Hansen.

Teorema 2 : Misalkan dan misalkan menjadi variabel acak lebih lanjut sehingga memiliki kerapatan yang sama maka di mana adalah berbagai .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Bukti :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Masukkan dan masukkan maka seseorang dapat menunjukkan (menggunakan fakta bahwa MDP hanya memiliki cukup banyak kartu) bahwa menyatu dan bahwa karena fungsimasih dalam (yaitu integrable) kita juga dapat menunjukkan (dengan menggunakan kombinasi teorema konvergensi monoton yang biasa dan kemudian mendominasi konvergensi pada persamaan penentuan untuk [faktorisasi] ekspektasi bersyarat) bahwa Sekarang orang menunjukkan itu Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
menggunakan , Thm. 2 di atas lalu Thm. 1 pada dan kemudian menggunakan perang marginalisasi langsung, satu menunjukkan bahwa untuk semua . Sekarang kita perlu menerapkan batas ke kedua sisi persamaan. Untuk menarik batas ke dalam integral ruang negara kita perlu membuat beberapa asumsi tambahan:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Entah ruang keadaan terbatas (lalu dan jumlahnya terbatas) atau semua hadiah semuanya positif (maka kita menggunakan konvergensi monoton) atau semua hadiah negatif (kemudian kita beri tanda minus di depan persamaan dan gunakan konvergensi monoton lagi) atau semua hadiah dibatasi (maka kita menggunakan konvergensi dominan). Kemudian (dengan menerapkan untuk kedua sisi dari persamaan Bellman parsial / terbatas di atas) kita memperolehS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

dan sisanya adalah manipulasi kepadatan biasa.

KETERANGAN: Bahkan dalam tugas yang sangat sederhana, ruang negara bisa tanpa batas! Salah satu contohnya adalah tugas 'menyeimbangkan tiang'. Keadaan pada dasarnya adalah sudut kutub (nilai dalam , himpunan tak terbatas yang tak terhitung jumlahnya!)[0,2π)

KETERANGAN: Orang mungkin mengomentari adonan, bukti ini dapat dipersingkat lebih banyak jika Anda hanya menggunakan kerapatan secara langsung dan menunjukkan bahwa '... TAPI ... pertanyaan saya adalah:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Kenapa Anda bahkan tahu bahwa memiliki kepadatan?Gt+1
  2. Kenapa Anda bahkan tahu bahwa memiliki kepadatan bersama dengan ?Gt+1St+1,St
  3. Bagaimana Anda menyimpulkan bahwa ? Ini bukan hanya properti Markov: Properti Markov hanya memberi tahu Anda sesuatu tentang distribusi marjinal tetapi ini tidak serta merta menentukan keseluruhan distribusi, lihat misalnya Gaussians multivarian!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Biarkan jumlah total hadiah diskon setelah waktu menjadi: t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Nilai utilitas dari mulai di negara, pada waktu, setara dengan jumlah yang diharapkan dari imbalan diskonto melaksanakan kebijakan mulai dari negara dan seterusnya. Dengan definisi Secara hukum linearitas Secara hukumst
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Total Ekspektasi Menurut definisi Menurut hukum linearitas
=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Dengan asumsi bahwa proses memenuhi Markov Properti:
Probabilitas berakhir di negara setelah dimulai dari negara dan mengambil tindakan , dan Reward berakhir di negara setelah dimulai dari negara dan mengambil tindakan , Prssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Oleh karena itu kita dapat menulis ulang persamaan utilitas di atas sebagai,
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Dimana; : Probabilitas mengambil tindakan ketika dalam keadaan untuk kebijakan stokastik. Untuk kebijakan deterministik,π(a|s)asaπ(a|s)=1


Hanya beberapa catatan: Jumlah lebih dari sama dengan 1 bahkan dalam kebijakan stokastik, tetapi dalam kebijakan deterministik, hanya ada satu tindakan yang menerima bobot penuh (yaitu, dan sisanya menerima 0 bobot, sehingga istilah tersebut dihapus dari persamaan. Juga di baris yang Anda gunakan hukum ekspektasi total, urutan condtionals dibalikππ(a|s)=1
Gilad Peleg

1
Saya cukup yakin bahwa jawaban ini salah: Mari kita ikuti persamaan hanya sampai garis yang melibatkan hukum ekspektasi total. Maka sisi kiri tidak bergantung pada sedangkan sisi kanan tidak ... Yaitu jika persamaannya benar maka untuk mana mereka benar? Anda harus memiliki beberapa jenis terpisahkan lebih sudah pada tahap itu. Alasannya mungkin kesalahpahaman Anda tentang perbedaan (variabel acak) vs faktorisasi (fungsi deterministik!) ...sssE[X|Y]E[X|Y=y]
Fabian Werner

@FabianWerner Saya setuju ini tidak benar. Jawaban dari Jie Shi adalah jawaban yang tepat.
Penggoda

@teucer Jawaban ini dapat diperbaiki karena hanya ada beberapa "symmetrization" yang hilang, yaitu tapi tetap saja, pertanyaannya sama seperti dalam jawaban Jie Shis: Mengapa ? Ini bukan hanya properti Markov karena adalah RV yang benar-benar rumit: Apakah bahkan konvergen? Jika ya, dimana? Berapakah densitas umum ? Kita hanya tahu ungkapan ini untuk jumlah yang terbatas (konvolusi rumit) tetapi untuk kasus tanpa batas? E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@FabianWerner tidak yakin apakah saya bisa menjawab semua pertanyaan. Di bawah ini beberapa petunjuk. Untuk konvergensi , mengingat bahwa ini adalah jumlah dari hadiah diskon, masuk akal untuk mengasumsikan bahwa seri konvergen (faktor diskon adalah dan ke tempat konvergensi tidak terlalu penting). Saya tidak mendapatkan perhatian dengan kepadatan (kita selalu dapat mendefinisikan kepadatan bersama selama kita memiliki variabel acak), itu hanya masalah jika itu didefinisikan dengan baik dan dalam hal itu. Gt+1<1
Penggoda

8

Ini buktiku. Ini didasarkan pada manipulasi distribusi bersyarat, yang membuatnya lebih mudah diikuti. Semoga yang ini membantu Anda.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Ini adalah persamaan Bellman yang terkenal.


Apakah Anda keberatan menjelaskan komentar ini 'Perhatikan bahwa ...' lebih sedikit? Mengapa variabel acak ini dan variabel status dan tindakan bahkan memiliki kerapatan yang sama? Jika demikian, mengapa Anda tahu properti ini yang Anda gunakan? Saya bisa melihat bahwa itu benar untuk jumlah yang terbatas tetapi jika variabel acak adalah batas ... ??? Gt+1
Fabian Werner

Untuk Fabian: Pertama mari kita ingat apa itu . . Perhatikan bahwa hanya secara langsung bergantung pada dan karena menangkap semua informasi transisi dari MDP (Lebih tepatnya, tidak tergantung pada semua status, tindakan, dan hadiah sebelum waktu diberikan dan ). Demikian pula, hanya tergantung pada dan . Akibatnya, tidak tergantung pada ,Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1Rt+3St+2At+2Gt+1StAt, dan diberikan , yang menjelaskan baris itu. RtSt+1
Jie Shi

Maaf, itu hanya 'memotivasi' saja, itu sebenarnya tidak menjelaskan apa-apa. Misalnya: Berapa kepadatan ? Mengapa Anda yakin bahwa ? Mengapa variabel acak ini bahkan memiliki kepadatan yang sama? Anda tahu bahwa jumlah berubah menjadi konvolusi dalam kepadatan jadi apa ... harus memiliki jumlah integral dalam kepadatan ??? Sama sekali tidak ada kandidat untuk kepadatan! Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Kepada Fabian: Saya tidak mendapatkan pertanyaan Anda. 1. Anda ingin bentuk persis dari distribusi marjinal ? Saya tidak mengetahuinya dan kami tidak membutuhkannya dalam bukti ini. 2. mengapa ? Karena seperti yang saya sebutkan sebelumnya dan independen diberikan . 3. Apa yang Anda maksud dengan "kepadatan bersama"? Maksud Anda distribusi bersama? Anda ingin tahu mengapa variabel acak ini memiliki distribusi bersama? Semua variabel acak di alam semesta ini dapat memiliki distribusi bersama. Jika ini pertanyaan Anda, saya sarankan Anda mencari buku teori probabilitas dan membacanya. p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi

Mari kita pindahkan diskusi ini ke chat: chat.stackexchange.com/rooms/88952/bellman-equation
Fabian Werner

2

Ada apa dengan pendekatan berikut?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Jumlahnya diperkenalkan untuk mengambil , dan dari . Setelah semua, tindakan yang mungkin dan kemungkinan status selanjutnya bisa. Dengan kondisi tambahan ini, linearitas dari harapan mengarah ke hasil yang hampir secara langsung.asrs

Saya tidak yakin seberapa ketat argumen saya secara matematis. Saya terbuka untuk perbaikan.


Baris terakhir hanya berfungsi karena properti MDP.
Penggoda

2

Ini hanya komentar / tambahan untuk jawaban yang diterima.

Saya bingung di garis di mana hukum harapan total sedang diterapkan. Saya tidak berpikir bentuk utama dari hukum harapan total dapat membantu di sini. Varian yang sebenarnya dibutuhkan di sini.

Jika adalah variabel acak dan dengan asumsi semua harapan ada, maka identitas berikut berlaku:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

Dalam hal ini, , dan . KemudianX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , yang oleh Markov milik eqauls toE[E[Gt+1|St+1=s]|St=s]

Dari sana, seseorang dapat mengikuti sisa bukti dari jawabannya.


1
Selamat datang di CV! Harap gunakan jawaban hanya untuk menjawab pertanyaan. Setelah Anda memiliki reputasi yang cukup (50), Anda dapat menambahkan komentar.
Frans Rodenburg

Terima kasih. Ya, karena saya tidak dapat berkomentar karena tidak memiliki reputasi yang cukup, saya pikir mungkin bermanfaat untuk menambahkan penjelasan pada jawaban. Tetapi saya akan mengingatnya.
Mehdi Golari

Saya membenarkan tetapi tetap saja, jawaban ini tidak ada perinciannya: Sekalipun memuaskan hubungan gila ini, maka tidak ada yang menjamin bahwa ini juga berlaku untuk faktorisasi ekspektasi bersyarat! Yaitu seperti dalam kasus dengan jawaban Ntabgoba: Sisi kiri tidak bergantung pada sedangkan sisi kanan tidak . Persamaan ini tidak mungkin benar! E[X|Y]s
Fabian Werner

1

Eπ() biasanya menunjukkan ekspektasi dengan asumsi agen mengikuti kebijakan . Dalam hal ini tampaknya non-deterministik, yaitu mengembalikan probabilitas bahwa agen mengambil tindakan ketika negara di .ππ(a|s)as

Sepertinya , huruf kecil, menggantikan , variabel acak. Harapan kedua menggantikan jumlah tak terbatas, untuk mencerminkan asumsi bahwa kita terus mengikuti untuk semua masa depan . adalah hadiah langsung yang diharapkan pada langkah waktu berikutnya; Kedua harapan-yang menjadi -adalah nilai yang diharapkan dari negara berikutnya, ditimbang dengan probabilitas berliku di negara setelah mengambil dari .rRt+1πts,rrp(s,r|s,a)vπsas

Dengan demikian, harapan memperhitungkan probabilitas kebijakan serta fungsi transisi dan penghargaan, di sini dinyatakan bersama sebagai .p(s,r|s,a)


Terima kasih. Ya, apa yang Anda sebutkan tentang benar (itu kemungkinan agen mengambil tindakan ketika dalam keadaan ). π(a|s)as
Amelio Vazquez-Reina

Yang tidak saya ikuti adalah istilah apa yang bisa diperluas menjadi istilah apa pada langkah kedua (saya terbiasa dengan faktorisasi dan marginalisasi probabilitas, tetapi tidak terlalu banyak dengan RL). Apakah istilah tersebut diperluas? Yaitu apa tepatnya pada langkah sebelumnya sama dengan apa tepatnya pada langkah berikutnya? Rt
Amelio Vazquez-Reina

1
Sepertinya , huruf kecil, menggantikan , variabel acak, dan harapan kedua menggantikan jumlah tak terbatas (mungkin untuk mencerminkan asumsi bahwa kami terus mengikuti untuk semua masa depan ). kemudian merupakan hadiah langsung yang diharapkan pada langkah waktu berikutnya, dan harapan kedua — yang menjadi —adalah nilai yang diharapkan dari keadaan berikutnya, dibobot oleh probabilitas berkelok-kelok di negara setelah mengambil dari . rRt+1πtΣp(s,r|s,a)rvπsas
Sean Easter

1

meskipun jawaban yang benar telah diberikan dan beberapa waktu telah berlalu, saya pikir panduan langkah demi langkah berikut mungkin berguna:
Secara linearitas dari Nilai yang Diharapkan kita dapat membagi ke dalam dan . Saya akan menguraikan langkah-langkah hanya untuk bagian pertama, karena bagian kedua mengikuti langkah-langkah yang sama dikombinasikan dengan Hukum Total Harapan.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Sedangkan (III) mengikuti formulir:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Saya tahu sudah ada jawaban yang diterima, tetapi saya ingin memberikan derivasi yang mungkin lebih konkret. Saya juga ingin menyebutkan bahwa walaupun trik @Jie Shi agak masuk akal, tapi itu membuat saya merasa sangat tidak nyaman :(. Kita perlu mempertimbangkan dimensi waktu untuk membuat ini bekerja. Dan penting untuk dicatat bahwa, harapan sebenarnya mengambil alih seluruh cakrawala tak terbatas, bukan hanya di atas dan . Asumsikan kita mulai dari (pada kenyataannya, derivasi adalah sama terlepas dari waktu mulai; saya tidak ingin mencemari persamaan dengan subscript lain ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
mencatat bahwa ATAS PERSAMAAN MEMEGANG MESKIPUN , SEBENARNYA AKAN BENAR SAMPAI AKHIR UNIVERSE (mungkin sedikit berlebihan :))T
Pada tahap ini, saya percaya sebagian besar dari kita harus sudah memikirkan bagaimana hal di atas mengarah ke ekspresi akhir - kita hanya perlu menerapkan aturan jumlah-produk ( ) dengan susah payah . Mari kita menerapkan hukum linearitas Ekspektasi untuk setiap istilah di dalamabcabcaabbcc(r1+γt=0T2γtrt+2)

Bagian 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Yah ini agak sepele, semua probabilitas hilang (sebenarnya berjumlah 1) kecuali yang terkait dengan . Karenanya, kita memiliki r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Bagian 2
Coba tebak, bagian ini bahkan lebih sepele - hanya melibatkan mengatur ulang urutan penjumlahan.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

Dan Eureka !! kami memulihkan pola rekursif di samping tanda kurung besar. Mari kita gabungkan dengan , dan kami memperoleh dan bagian 2 menjadi γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Bagian 1 + Bagian 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

Dan sekarang jika kita dapat memasukkan dimensi waktu dan memulihkan rumus rekursif umum

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Pengakuan terakhir, saya tertawa ketika melihat orang-orang di atas menyebutkan penggunaan hukum harapan total. Jadi inilah saya


Ehm ... apa arti simbol ' '? Tidak ada ...a0,...,aa
Fabian Werner

Pertanyaan lain: Mengapa persamaan pertama itu benar? Saya tahu tetapi dalam kasus kami, akan menjadi urutan tak terbatas dari variabel acak jadi kita perlu menghitung densitas variabel ini (terdiri dari jumlah tak terbatas variabel yang kita ketahui kerapatan) bersama-sama dengan sesuatu yang lain (yaitu keadaan). .. bagaimana tepatnya Anda melakukan itu? Yaitu apa itu ? E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
Fabian Werner

@FabianWerner. Ambil napas dalam-dalam untuk menenangkan otak Anda terlebih dahulu :). Biarkan saya menjawab pertanyaan pertama Anda. . Jika Anda mengingat kembali definisi fungsi nilai, itu sebenarnya adalah penjumlahan dari hadiah masa depan yang didiskon. Jika kita mempertimbangkan cakrawala tanpa batas untuk imbalan masa depan kita, maka kita perlu menjumlahkan jumlah kali yang tak terbatas. Hadiah adalah hasil dari mengambil tindakan dari suatu negara, karena ada jumlah hadiah yang tak terbatas, harus ada jumlah tindakan yang tak terbatas, karenanya . a0,...,aa0a1,...,aa
Karlsson Yu

1
mari kita asumsikan bahwa saya setuju bahwa ada beberapa aneh (yang saya masih ragu, biasanya, siswa pada semester pertama dalam matematika cenderung membingungkan batas dengan beberapa konstruksi yang sebenarnya melibatkan elemen tak terbatas) ... Saya masih punya satu pertanyaan sederhana: bagaimana " didefinisikan? Saya tahu apa arti ungkapan ini dengan jumlah yang terbatas ... tetapi banyak dari mereka? Apa yang Anda pahami dari ungkapan ini? aa1...a
Fabian Werner

1
Internet. Bisakah Anda merujuk saya ke halaman atau tempat lain yang mendefinisikan ekspresi Anda? Jika tidak, maka Anda benar-benar mendefinisikan sesuatu yang baru dan tidak ada gunanya mendiskusikannya karena itu hanya simbol yang Anda buat (tetapi tidak ada makna di baliknya) ... Anda setuju bahwa kami hanya dapat membahas tentang simbol tersebut jika kita berdua tahu artinya, bukan? Jadi, saya tidak tahu apa artinya, tolong jelaskan ...
Fabian Werner

1

Sudah ada banyak jawaban untuk pertanyaan ini, tetapi sebagian besar melibatkan beberapa kata yang menggambarkan apa yang terjadi dalam manipulasi. Saya akan menjawabnya dengan menggunakan lebih banyak kata, saya pikir. Untuk memulai,

Gtk=t+1Tγkt1Rk

didefinisikan dalam persamaan 3.11 dari Sutton dan Barto, dengan faktor diskon konstan dan kita dapat memiliki atau , tetapi tidak keduanya. Karena imbalannya, , adalah variabel acak, demikian juga karena itu hanyalah kombinasi linear dari variabel acak.0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Baris terakhir itu mengikuti dari linearitas nilai ekspektasi. adalah hadiah yang didapat agen setelah mengambil tindakan pada langkah waktu . Untuk kesederhanaan, saya berasumsi bahwa itu dapat mengambil sejumlah nilai terbatas . Rt+1trR

Kerjakan istilah yang pertama. Dengan kata lain, saya perlu menghitung nilai ekspektasi mengingat kita tahu bahwa kondisi saat ini adalah . Rumus untuk ini adalahRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

Dengan kata lain probabilitas munculnya hadiah dikondisikan pada negara ; negara bagian yang berbeda mungkin memiliki hadiah yang berbeda pula. Ini distribusi adalah distribusi marginal dari suatu distribusi yang juga berisi variabel dan , tindakan yang diambil pada waktu dan negara pada waktu setelah tindakan, masing-masing:rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Di mana saya telah menggunakan , mengikuti konvensi buku. Jika persamaan terakhir itu membingungkan, lupakan jumlah, tekan (probabilitas sekarang terlihat seperti probabilitas gabungan), gunakan hukum penggandaan dan akhirnya perkenalkan kembali kondisi pada dalam semua istilah baru. Sekarang mudah untuk melihat bahwa istilah pertama adalahπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

seperti yang dipersyaratkan. istilah kedua, di mana saya berasumsi bahwa adalah variabel acak yang mengambil sejumlah nilai . Sama seperti istilah pertama:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Sekali lagi, saya "tidak meminggirkan" distribusi probabilitas dengan menulis (hukum penggandaan lagi)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

Baris terakhir di sana mengikuti dari properti Markovian. Ingat bahwa adalah jumlah dari semua hadiah masa depan (diskon) yang diterima agen setelah keadaan . Properti Markovian adalah bahwa prosesnya kurang memori sehubungan dengan status, tindakan, dan hadiah sebelumnya. Tindakan di masa depan (dan imbalan yang mereka tuai) hanya bergantung pada keadaan di mana tindakan itu diambil, jadi , dengan asumsi. Ok, jadi istilah kedua dalam buktinya sekarangGt+1sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

seperti yang dipersyaratkan, sekali lagi. Menggabungkan dua istilah melengkapi bukti

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

MEMPERBARUI

Saya ingin membahas apa yang tampak seperti sulap dalam derivasi dari istilah kedua. Dalam persamaan yang ditandai dengan , saya menggunakan istilah dan kemudian dalam persamaan yang ditandai Saya mengklaim bahwa tidak bergantung pada , dengan memperdebatkan properti Markovian. Jadi, Anda mungkin mengatakan bahwa jika ini masalahnya, maka . Tetapi ini tidak benar. Saya dapat mengambil karena probabilitas di sisi kiri pernyataan itu mengatakan bahwa ini adalah probabilitas dikondisikan pada , , , dan()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars. Karena kita baik tahu atau menganggap negara , tak satu pun dari conditional lainnya masalah, karena properti Markov. Jika Anda tidak tahu atau menganggap negara , maka imbalan masa depan (arti ) akan tergantung pada negara Anda mulai di, karena yang akan menentukan (berdasarkan kebijakan) yang menyatakan Anda mulai ketika menghitung .ssgsg

Jika argumen itu tidak meyakinkan Anda, cobalah untuk menghitung apa itu:p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Seperti dapat dilihat pada baris terakhir, tidak benar bahwa . Nilai yang diharapkan dari tergantung pada negara bagian tempat Anda memulai (yaitu identitas ), jika Anda tidak tahu atau menganggap status .p(g|s)=p(g)gss

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.