Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih.
Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi kasarnya adalah:
di mana adalah keuntungan dari hadiah, ditandai dengan \ mu dan \ sigma ^ 2 yang keluar dari jaringan saraf seperti di lingkungan Pendulum di sini: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0 /hw4/main.py .
Masalahnya adalah bahwa saya tidak dapat menemukan makalah tentang 2+ tindakan berkelanjutan menggunakan gradien kebijakan (bukan metode aktor-kritik yang menggunakan pendekatan yang berbeda dengan mentransfer gradien dari fungsi-Q).
Apakah Anda tahu cara melakukan ini menggunakan TRPO untuk 2 tindakan berkelanjutan di lingkungan LunarLander ?
Apakah pendekatan berikut ini benar untuk fungsi kehilangan gradien kebijakan?