Dalam robotika, teknik pembelajaran penguatan digunakan untuk menemukan pola kontrol untuk robot. Sayangnya, sebagian besar metode gradien kebijakan secara statistik bias yang dapat membawa robot dalam situasi yang tidak aman, lihat halaman 2 di Jan Peters dan Stefan Schaal: Penguatan pembelajaran keterampilan motorik dengan gradien kebijakan, 2008
Dengan pembelajaran primitif motor, adalah mungkin untuk mengatasi masalah karena optimasi parameter gradien kebijakan mengarahkan langkah-langkah pembelajaran ke dalam tujuan.
kutipan: "Jika estimasi gradien tidak bias dan angka pembelajaran memenuhi jumlah (a) = 0 proses pembelajaran dijamin untuk konvergen ke setidaknya minimum lokal [...] Oleh karena itu, kita perlu memperkirakan gradien kebijakan hanya dari data yang dihasilkan selama pelaksanaan tugas. ”(Halaman 4 dari kertas yang sama)
Dalam pekerjaan rumah untuk kelas Berkeley RL Soal 1, ia meminta Anda untuk menunjukkan bahwa gradien kebijakan masih tidak bias jika garis dasar yang dikurangkan adalah fungsi dari negara di timestep t.
Saya berjuang melalui apa langkah pertama dari bukti seperti itu. Bisakah seseorang mengarahkan saya ke arah yang benar? Pikiran awal saya adalah entah bagaimana menggunakan hukum ekspektasi total untuk membuat ekspektasi b (st) bersyarat pada T, tapi saya tidak yakin. Terima kasih sebelumnya :)