Pertanyaan yang diberi tag «q-learning»

1
Apa hubungan antara metode Q-learning dan kebijakan gradien?
Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi ...

1
Mengapa DQN memerlukan dua jaringan yang berbeda?
Aku akan melalui ini pelaksanaan DQN dan saya melihat bahwa pada baris 124 dan 125 dua jaringan yang berbeda Q telah diinisialisasi. Dari pemahaman saya, saya pikir satu jaringan memprediksi tindakan yang tepat dan jaringan kedua memprediksi nilai target Q untuk menemukan kesalahan Bellman. Mengapa kita tidak bisa hanya membuat ...

2
Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?
Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,Sebuah)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty di mana αt(s,a)αt(s,a)\alpha_t(s, a) berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai QQQ terkait dengan keadaan sss dan ...
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.