Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .
Ingat iterasi kebijakan adalah:
Mengapa algoritma serakah mengarah pada kebijakan optimal dan fungsi nilai optimal? (Saya tahu algoritma serakah tidak selalu menjamin hal itu, atau mungkin terjebak dalam optima lokal, jadi saya hanya ingin melihat bukti untuk optimalitas algoritma).
Juga, bagi saya tampaknya iterasi kebijakan adalah sesuatu yang analog dengan pengelompokan atau penurunan gradien. Untuk pengelompokan, karena dengan pengaturan parameter saat ini, kami mengoptimalkan. Mirip dengan gradient descent karena hanya memilih beberapa nilai yang tampaknya meningkatkan beberapa fungsi. Dua metode ini tidak selalu menyatu ke maxima optimal, dan saya mencoba memahami bagaimana algoritma ini berbeda dari yang sebelumnya saya sebutkan.
Ini adalah pemikiran saya sejauh ini:
Katakanlah bahwa kita mulai dengan beberapa kebijakan , kemudian setelah langkah pertama, untuk kebijakan tetap itu kita memilikinya:
Di mana V ^ {(1)} adalah fungsi nilai untuk iterasi pertama. Kemudian setelah langkah kedua kami memilih beberapa kebijakan baru untuk meningkatkan nilai . Sekarang, dengan kebijakan baru , jika kita melakukan langkah kedua algoritma, ketidaksetaraan berikut ini berlaku:
Karena kita memilih pada langkah kedua untuk meningkatkan fungsi nilai pada langkah sebelumnya (yaitu untuk meningkatkan . Sejauh ini, jelas bahwa memilih hanya dapat meningkatkan V ^ {(1)}, karena itulah cara kami memilih . Namun, kebingungan saya muncul pada langkah pengulangan karena setelah kami mengulangi dan kembali ke langkah 1, kami benar-benar mengubah banyak hal karena kami menghitung ulang untuk kebijakan baru . Pemberian yang mana:
tapi ini BUKAN:
Yang tampaknya menjadi masalah karena dipilih untuk meningkatkan , dan bukan . Pada dasarnya masalahnya adalah bahwa menjamin untuk meningkatkan dengan melakukan sebagai gantinya dari ketika fungsi nilai adalah . Tetapi pada langkah berulang kami mengubah menjadi , tetapi saya tidak melihat bagaimana hal itu menjamin bahwa fungsi nilai meningkat secara monoton pada setiap pengulangan karena dihitung untuk meningkatkan fungsi nilai saat fungsi nilai tetap diπ 2 p i 1 V π 1 V π 1 V π 2 π 2 V π 1 V π 1V π 2 π 2, tetapi langkah 1 mengubah menjadi (yang buruk karena I hanya meningkatkan fungsi nilai sebelumnya yang kami miliki).