1
Apa hubungan antara metode Q-learning dan kebijakan gradien?
Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …