Pertanyaan yang diberi tag «policy-gradients»

1
Apa hubungan antara metode Q-learning dan kebijakan gradien?
Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.