Algoritma Q-learning tabular dijamin untuk menemukan fungsi optimal , , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi
di mana berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai terkait dengan keadaan dan tindakan pada waktu waktu langkah , di mana diasumsikan benar, untuk semua negara dan tindakan .
Rupanya, mengingat bahwa , agar kedua kondisi menjadi benar, semua pasangan tindakan-negara harus sering dikunjungi tanpa batas: ini juga dinyatakan dalam buku Reinforcement Learning: An Introduction , terlepas dari fakta bahwa ini harus diketahui secara luas dan itu adalah alasan di balik penggunaan kebijakan -regal (atau kebijakan serupa) selama pelatihan.
Bukti lengkap yang menunjukkan bahwa pembelajaran- menemukan fungsi optimal dapat ditemukan dalam makalah Konvergensi pembelajaran-Q: Bukti Sederhana (oleh Francisco S. Melo). Dia menggunakan konsep seperti pemetaan kontraksi untuk mendefinisikan fungsi optimal (lihat juga Apa operator Bellman dalam pembelajaran penguatan? ), Yang merupakan titik tetap dari operator kontraksi ini. Dia juga menggunakan teorema (n. 2) mengenai proses acak yang konvergen ke , diberikan beberapa asumsi. (Buktinya mungkin tidak mudah diikuti jika Anda bukan seorang pria matematika.)
Jika jaringan saraf digunakan untuk mewakili fungsi , apakah jaminan konvergensi dari pembelajaran masih berlaku? Mengapa (atau tidak) Q-learning bertemu ketika menggunakan pendekatan fungsi? Apakah ada bukti formal dari non-konvergensi learning menggunakan pendekatan fungsi?
Saya mencari berbagai jenis jawaban, dari jawaban yang hanya memberikan intuisi di balik non-konvergensi pembelajaran- saat menggunakan perkiraan fungsi hingga yang memberikan bukti formal (atau tautan ke kertas dengan bukti formal).