Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?

Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih.

Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi kasarnya adalah:

L. (θ) = catatan (P ({Sebuah}_{1})) SEBUAH,

$L(\theta) = \log(P(a_1)) A,$

di mana adalah keuntungan dari hadiah, ditandai dengan dan yang keluar dari jaringan saraf seperti di lingkungan Pendulum di sini: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0 /hw4/main.py . $A$ $P(a_1)$ $\mu$ $\sigma^2$

Masalahnya adalah bahwa saya tidak dapat menemukan makalah tentang 2+ tindakan berkelanjutan menggunakan gradien kebijakan (bukan metode aktor-kritik yang menggunakan pendekatan yang berbeda dengan mentransfer gradien dari fungsi-Q).

Apakah Anda tahu cara melakukan ini menggunakan TRPO untuk 2 tindakan berkelanjutan di lingkungan LunarLander ?

Apakah pendekatan berikut ini benar untuk fungsi kehilangan gradien kebijakan?

L. (θ) = (catatan P ({Sebuah}_{)} + catatan P ({Sebuah}_{2})) * SEBUAH

$L(\theta) = (\log P(a_) + \log P(a_2) )*A$

deep-learning reinforcement-learning trpo

— Evalds Urtans
sumber

Seperti yang Anda katakan, tindakan yang dipilih oleh Aktor-Kritik biasanya berasal dari distribusi normal dan itu adalah tugas agen untuk menemukan rata-rata dan standar deviasi yang tepat berdasarkan pada keadaan saat ini. Dalam banyak kasus, distribusi yang satu ini cukup karena hanya diperlukan 1 tindakan berkelanjutan. Namun, karena domain seperti robotika menjadi lebih terintegrasi dengan AI, situasi di mana 2 atau lebih tindakan berkelanjutan diperlukan adalah masalah yang semakin besar.

Ada 2 solusi untuk masalah ini: Yang pertama dan paling umum adalah bahwa untuk setiap tindakan berkelanjutan, ada agen terpisah yang belajar mean 1-dimensi dan standar deviasi. Bagian dari negaranya termasuk tindakan agen lain juga untuk memberikan konteks tentang apa yang dilakukan seluruh sistem. Kami biasanya melakukan ini di lab saya dan di sini ada makalah yang menggambarkan pendekatan ini dengan 3 agen aktor-kritik yang bekerja bersama untuk menggerakkan lengan robot.

Pendekatan kedua adalah meminta satu agen menemukan distribusi kebijakan yang multivariat (biasanya normal) . Meskipun secara teori, pendekatan ini dapat memiliki distribusi kebijakan yang lebih ringkas dengan "memutar" distribusi berdasarkan pada co-variance matrix, itu berarti bahwa semua nilai dari co-variance matrix harus dipelajari juga. Ini meningkatkan jumlah nilai yang harus dipelajari untuk memiliki keluaran kontinu dari (rata-rata dan stddev), menjadi ( berarti dan matriks co-variance n). Kelemahan ini membuat pendekatan ini tidak sepopuler dalam literatur. $n$ $2n$ $n+n^2$ $n$ $n \times n$

Ini adalah jawaban yang lebih umum tetapi harus membantu Anda dan orang lain dalam masalah terkait mereka.

— Jaden Travnik
sumber

Jaden terima kasih atas jawaban yang bagus. 1. Saya mencoba arsitektur multi-agen, tetapi tidak terlalu efisien. Butuh waktu lebih lama untuk bertemu. 2. Sekarang distribusi multivarian juga tampak jelas bagi saya, terima kasih.

— Evalds Urtans

Bergantung pada aplikasi dan arsitekturnya (jika ini adalah jaringan yang dalam), Anda dapat membuat agen berbagi fitur level rendah dan kemudian membuatnya bercabang menjadi fungsi nilainya sendiri. Selain itu, memiliki 1 kritikus dan banyak aktor juga merupakan cara untuk meningkatkan arsitektur.

— Jaden Travnik

Saat ini saya ingin menerapkan saran Anda ke TRPO (hanya metode gradien kebijakan), bukan aktor-kritik. Saya tidak terlalu percaya diri dalam transfer gradient dari kritik ke aktor - dalam banyak implementasi saya telah melihat sepertinya tidak seharusnya bekerja meskipun konvergen.

— Evalds Urtans

Maaf untuk pertanyaan noob ini: Bagaimana ini diterapkan dalam metode aktor-kritik (di mana aktor dapat melakukan beberapa tindakan berkelanjutan simultan), di mana aktor memiliki fungsi kebijakan dan dilatih oleh metode gradien kebijakan? @JadenTravnik Bisakah Anda jelaskan dalam jawaban di bawah judul baru?

— Gokul NC