Kecerdasan buatan policy-gradients

Apa hubungan antara metode Q-learning dan kebijakan gradien?

Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …

21 reinforcement-learning q-learning policy-gradients comparison

Pertanyaan yang diberi tag «policy-gradients»