2
Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?
Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,Sebuah)<∞\sum_{t} \alpha_t^2(s, a) < \infty di mana αt(s,a)αt(s,a)\alpha_t(s, a) berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai QQQ terkait dengan keadaan sss dan …