Pertanyaan yang diberi tag «policy-iteration»

2
Mengapa algoritma iterasi kebijakan menyatu dengan fungsi kebijakan dan nilai yang optimal?
Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .V∗V∗V^*π∗π∗\pi^* Ingat iterasi kebijakan adalah: Inisialisasi π secara acakUlangi {L e t V : = Vπ \ untuk kebijakan saat ini, selesaikan bellman's eqn's dan atur …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.