Pertanyaan yang diberi tag «trpo»

1
Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?
Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih. Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi kasarnya adalah: L ( θ ) = log( P( a1) ) A ,L.(θ)=catatan⁡(P(Sebuah1))SEBUAH,L(\theta) = \log(P(a_1)) A, …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.