Saya melihat persamaan berikut dalam " In Reinforcement Learning. An Introduction ", tetapi tidak cukup mengikuti langkah yang telah saya soroti dengan warna biru di bawah ini. Bagaimana tepatnya langkah ini diturunkan?
Saya melihat persamaan berikut dalam " In Reinforcement Learning. An Introduction ", tetapi tidak cukup mengikuti langkah yang telah saya soroti dengan warna biru di bawah ini. Bagaimana tepatnya langkah ini diturunkan?
Jawaban:
Ini adalah jawaban untuk semua orang yang bertanya-tanya tentang matematika yang bersih dan terstruktur di belakangnya (yaitu jika Anda termasuk dalam kelompok orang yang tahu apa variabel acak dan bahwa Anda harus menunjukkan atau berasumsi bahwa variabel acak memiliki kerapatan maka ini adalah jawaban untuk Anda ;-)):
Pertama-tama kita perlu memiliki bahwa Proses Keputusan Markov hanya memiliki sejumlah terbatas kartu, yaitu kita perlu bahwa ada set kepadatan terbatas , masing-masing milik variabel , yaitu untuk semua dan peta sedemikian sehingga
(yaitu dalam automata di belakang MDP, mungkin ada banyak negara bagian yang tak terhingga tetapi hanya ada banyak sekali distribusi- melekat pada transisi yang mungkin tak terbatas antara negara-negara)
Teorema 1 : Misalkan (yaitu variabel acak nyata yang dapat diintegrasikan) dan biarkan menjadi variabel acak lain sehingga memiliki kerapatan yang sama maka
Bukti : Pada dasarnya dibuktikan di sini oleh Stefan Hansen.
Teorema 2 : Misalkan dan misalkan menjadi variabel acak lebih lanjut sehingga memiliki kerapatan yang sama maka
di mana adalah berbagai .
Bukti :
Masukkan dan masukkan maka seseorang dapat menunjukkan (menggunakan fakta bahwa MDP hanya memiliki cukup banyak kartu) bahwa menyatu dan bahwa karena fungsimasih dalam (yaitu integrable) kita juga dapat menunjukkan (dengan menggunakan kombinasi teorema konvergensi monoton yang biasa dan kemudian mendominasi konvergensi pada persamaan penentuan untuk [faktorisasi] ekspektasi bersyarat) bahwa
Sekarang orang menunjukkan itu
Entah ruang keadaan terbatas (lalu dan jumlahnya terbatas) atau semua hadiah semuanya positif (maka kita menggunakan konvergensi monoton) atau semua hadiah negatif (kemudian kita beri tanda minus di depan persamaan dan gunakan konvergensi monoton lagi) atau semua hadiah dibatasi (maka kita menggunakan konvergensi dominan). Kemudian (dengan menerapkan untuk kedua sisi dari persamaan Bellman parsial / terbatas di atas) kita memperoleh
dan sisanya adalah manipulasi kepadatan biasa.
KETERANGAN: Bahkan dalam tugas yang sangat sederhana, ruang negara bisa tanpa batas! Salah satu contohnya adalah tugas 'menyeimbangkan tiang'. Keadaan pada dasarnya adalah sudut kutub (nilai dalam , himpunan tak terbatas yang tak terhitung jumlahnya!)
KETERANGAN: Orang mungkin mengomentari adonan, bukti ini dapat dipersingkat lebih banyak jika Anda hanya menggunakan kerapatan secara langsung dan menunjukkan bahwa '... TAPI ... pertanyaan saya adalah:
Biarkan jumlah total hadiah diskon setelah waktu menjadi:
Nilai utilitas dari mulai di negara, pada waktu, setara dengan jumlah yang diharapkan dari
imbalan diskonto melaksanakan kebijakan mulai dari negara dan seterusnya.
Dengan definisi Secara hukum linearitas
Secara hukum
Total Ekspektasi
Menurut definisi Menurut hukum linearitas
Dengan asumsi bahwa proses memenuhi Markov Properti:
Probabilitas berakhir di negara setelah dimulai dari negara dan mengambil tindakan ,
dan
Reward berakhir di negara setelah dimulai dari negara dan mengambil tindakan ,
Oleh karena itu kita dapat menulis ulang persamaan utilitas di atas sebagai,
Dimana; : Probabilitas mengambil tindakan ketika dalam keadaan untuk kebijakan stokastik. Untuk kebijakan deterministik,
Ini buktiku. Ini didasarkan pada manipulasi distribusi bersyarat, yang membuatnya lebih mudah diikuti. Semoga yang ini membantu Anda.
Ada apa dengan pendekatan berikut?
Jumlahnya diperkenalkan untuk mengambil , dan dari . Setelah semua, tindakan yang mungkin dan kemungkinan status selanjutnya bisa. Dengan kondisi tambahan ini, linearitas dari harapan mengarah ke hasil yang hampir secara langsung.
Saya tidak yakin seberapa ketat argumen saya secara matematis. Saya terbuka untuk perbaikan.
Ini hanya komentar / tambahan untuk jawaban yang diterima.
Saya bingung di garis di mana hukum harapan total sedang diterapkan. Saya tidak berpikir bentuk utama dari hukum harapan total dapat membantu di sini. Varian yang sebenarnya dibutuhkan di sini.
Jika adalah variabel acak dan dengan asumsi semua harapan ada, maka identitas berikut berlaku:
Dalam hal ini, , dan . Kemudian
, yang oleh Markov milik eqauls to
Dari sana, seseorang dapat mengikuti sisa bukti dari jawabannya.
biasanya menunjukkan ekspektasi dengan asumsi agen mengikuti kebijakan . Dalam hal ini tampaknya non-deterministik, yaitu mengembalikan probabilitas bahwa agen mengambil tindakan ketika negara di .
Sepertinya , huruf kecil, menggantikan , variabel acak. Harapan kedua menggantikan jumlah tak terbatas, untuk mencerminkan asumsi bahwa kita terus mengikuti untuk semua masa depan . adalah hadiah langsung yang diharapkan pada langkah waktu berikutnya; Kedua harapan-yang menjadi -adalah nilai yang diharapkan dari negara berikutnya, ditimbang dengan probabilitas berliku di negara setelah mengambil dari .
Dengan demikian, harapan memperhitungkan probabilitas kebijakan serta fungsi transisi dan penghargaan, di sini dinyatakan bersama sebagai .
meskipun jawaban yang benar telah diberikan dan beberapa waktu telah berlalu, saya pikir panduan langkah demi langkah berikut mungkin berguna:
Secara linearitas dari Nilai yang Diharapkan kita dapat membagi
ke dalam dan .
Saya akan menguraikan langkah-langkah hanya untuk bagian pertama, karena bagian kedua mengikuti langkah-langkah yang sama dikombinasikan dengan Hukum Total Harapan.
Sedangkan (III) mengikuti formulir:
Saya tahu sudah ada jawaban yang diterima, tetapi saya ingin memberikan derivasi yang mungkin lebih konkret. Saya juga ingin menyebutkan bahwa walaupun trik @Jie Shi agak masuk akal, tapi itu membuat saya merasa sangat tidak nyaman :(. Kita perlu mempertimbangkan dimensi waktu untuk membuat ini bekerja. Dan penting untuk dicatat bahwa, harapan sebenarnya mengambil alih seluruh cakrawala tak terbatas, bukan hanya di atas dan . Asumsikan kita mulai dari (pada kenyataannya, derivasi adalah sama terlepas dari waktu mulai; saya tidak ingin mencemari persamaan dengan subscript lain )
Pada tahap ini, saya percaya sebagian besar dari kita harus sudah memikirkan bagaimana hal di atas mengarah ke ekspresi akhir - kita hanya perlu menerapkan aturan jumlah-produk ( ) dengan susah payah . Mari kita menerapkan hukum linearitas Ekspektasi untuk setiap istilah di dalam
Bagian 1
Yah ini agak sepele, semua probabilitas hilang (sebenarnya berjumlah 1) kecuali yang terkait dengan . Karenanya, kita memiliki
Bagian 2
Coba tebak, bagian ini bahkan lebih sepele - hanya melibatkan mengatur ulang urutan penjumlahan.
Dan Eureka !! kami memulihkan pola rekursif di samping tanda kurung besar. Mari kita gabungkan dengan , dan kami memperoleh
dan bagian 2 menjadi
Bagian 1 + Bagian 2
Dan sekarang jika kita dapat memasukkan dimensi waktu dan memulihkan rumus rekursif umum
Pengakuan terakhir, saya tertawa ketika melihat orang-orang di atas menyebutkan penggunaan hukum harapan total. Jadi inilah saya
Sudah ada banyak jawaban untuk pertanyaan ini, tetapi sebagian besar melibatkan beberapa kata yang menggambarkan apa yang terjadi dalam manipulasi. Saya akan menjawabnya dengan menggunakan lebih banyak kata, saya pikir. Untuk memulai,
didefinisikan dalam persamaan 3.11 dari Sutton dan Barto, dengan faktor diskon konstan dan kita dapat memiliki atau , tetapi tidak keduanya. Karena imbalannya, , adalah variabel acak, demikian juga karena itu hanyalah kombinasi linear dari variabel acak.
Baris terakhir itu mengikuti dari linearitas nilai ekspektasi. adalah hadiah yang didapat agen setelah mengambil tindakan pada langkah waktu . Untuk kesederhanaan, saya berasumsi bahwa itu dapat mengambil sejumlah nilai terbatas .
Kerjakan istilah yang pertama. Dengan kata lain, saya perlu menghitung nilai ekspektasi mengingat kita tahu bahwa kondisi saat ini adalah . Rumus untuk ini adalah
Dengan kata lain probabilitas munculnya hadiah dikondisikan pada negara ; negara bagian yang berbeda mungkin memiliki hadiah yang berbeda pula. Ini distribusi adalah distribusi marginal dari suatu distribusi yang juga berisi variabel dan , tindakan yang diambil pada waktu dan negara pada waktu setelah tindakan, masing-masing:
Di mana saya telah menggunakan , mengikuti konvensi buku. Jika persamaan terakhir itu membingungkan, lupakan jumlah, tekan (probabilitas sekarang terlihat seperti probabilitas gabungan), gunakan hukum penggandaan dan akhirnya perkenalkan kembali kondisi pada dalam semua istilah baru. Sekarang mudah untuk melihat bahwa istilah pertama adalah
seperti yang dipersyaratkan. istilah kedua, di mana saya berasumsi bahwa adalah variabel acak yang mengambil sejumlah nilai . Sama seperti istilah pertama:
Sekali lagi, saya "tidak meminggirkan" distribusi probabilitas dengan menulis (hukum penggandaan lagi)
Baris terakhir di sana mengikuti dari properti Markovian. Ingat bahwa adalah jumlah dari semua hadiah masa depan (diskon) yang diterima agen setelah keadaan . Properti Markovian adalah bahwa prosesnya kurang memori sehubungan dengan status, tindakan, dan hadiah sebelumnya. Tindakan di masa depan (dan imbalan yang mereka tuai) hanya bergantung pada keadaan di mana tindakan itu diambil, jadi , dengan asumsi. Ok, jadi istilah kedua dalam buktinya sekarang
seperti yang dipersyaratkan, sekali lagi. Menggabungkan dua istilah melengkapi bukti
MEMPERBARUI
Saya ingin membahas apa yang tampak seperti sulap dalam derivasi dari istilah kedua. Dalam persamaan yang ditandai dengan , saya menggunakan istilah dan kemudian dalam persamaan yang ditandai Saya mengklaim bahwa tidak bergantung pada , dengan memperdebatkan properti Markovian. Jadi, Anda mungkin mengatakan bahwa jika ini masalahnya, maka . Tetapi ini tidak benar. Saya dapat mengambil karena probabilitas di sisi kiri pernyataan itu mengatakan bahwa ini adalah probabilitas dikondisikan pada , , , dan. Karena kita baik tahu atau menganggap negara , tak satu pun dari conditional lainnya masalah, karena properti Markov. Jika Anda tidak tahu atau menganggap negara , maka imbalan masa depan (arti ) akan tergantung pada negara Anda mulai di, karena yang akan menentukan (berdasarkan kebijakan) yang menyatakan Anda mulai ketika menghitung .
Jika argumen itu tidak meyakinkan Anda, cobalah untuk menghitung apa itu:
Seperti dapat dilihat pada baris terakhir, tidak benar bahwa . Nilai yang diharapkan dari tergantung pada negara bagian tempat Anda memulai (yaitu identitas ), jika Anda tidak tahu atau menganggap status .