Pertanyaan yang diberi tag «q-learning»

1
Apa hubungan antara metode Q-learning dan kebijakan gradien?
Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …

1
Mengapa DQN memerlukan dua jaringan yang berbeda?
Aku akan melalui ini pelaksanaan DQN dan saya melihat bahwa pada baris 124 dan 125 dua jaringan yang berbeda Q telah diinisialisasi. Dari pemahaman saya, saya pikir satu jaringan memprediksi tindakan yang tepat dan jaringan kedua memprediksi nilai target Q untuk menemukan kesalahan Bellman. Mengapa kita tidak bisa hanya membuat …

2
Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?
Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,Sebuah)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty di mana αt(s,a)αt(s,a)\alpha_t(s, a) berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai QQQ terkait dengan keadaan sss dan …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.