Anda benar, fungsi memberi Anda nilai kondisi, dan memberi Anda nilai tindakan dalam kondisi (mengikuti kebijakan ). Saya menemukan penjelasan paling jelas tentang Q-learning dan cara kerjanya dalam buku Tom Mitchell "Machine Learning" (1997), ch. 13, yang dapat diunduh. didefinisikan sebagai jumlah dari deret tak hingga tetapi tidak penting di sini. Yang penting adalah fungsi didefinisikan sebagaiVQπVQ
Q(s,a)=r(s,a)+γV∗(δ(s,a))
mana V * adalah nilai terbaik suatu negara jika Anda dapat mengikuti kebijakan optimal yang Anda tidak tahu Namun memiliki karakterisasi yang bagus dalam hal
Komputasi dilakukan dengan mengganti dalam persamaan pertama untuk memberikan
Q
V∗(s)=maxa′Q(s,a′)
QV∗Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
Ini mungkin tampak rekursi aneh pada awalnya karena ini menyatakan nilai Q suatu tindakan dalam kondisi saat ini dalam hal nilai Q terbaik dari negara penerus , tetapi masuk akal ketika Anda melihat bagaimana proses pencadangan menggunakannya: Eksplorasi proses berhenti ketika mencapai keadaan tujuan dan mengumpulkan hadiah, yang menjadi nilai Q transisi akhir itu. Sekarang dalam episode pelatihan berikutnya, ketika proses eksplorasi mencapai keadaan pendahulunya, proses pencadangan menggunakan persamaan di atas untuk memperbarui nilai Q saat ini dari kondisi pendahulunya. Berikutnya waktu yangpendahulunya dikunjungi bahwa nilai Q negara diperbarui, dan seterusnya kembali ke jalur (buku Mitchell menjelaskan cara yang lebih efisien untuk melakukan ini dengan menyimpan semua perhitungan dan mengulanginya nanti). Asalkan setiap negara dikunjungi tanpa batas sering proses ini pada akhirnya menghitung Q optimal
Kadang-kadang Anda akan melihat laju pembelajaran diterapkan untuk mengontrol seberapa banyak Q sebenarnya diperbarui:
Perhatikan sekarang bahwa update ke nilai Q tidak tergantung pada nilai Q saat ini. Buku Mitchell juga menjelaskan mengapa itu dan mengapa Anda perlu : ini untuk stokastik stokastik. Tanpa , setiap kali keadaan, pasangan tindakan dicoba akan ada hadiah yang berbeda sehingga fungsi Q ^ akan terpental di semua tempat dan tidak bertemu. ada sehingga sebagai pengetahuan baru hanya diterima sebagian.αQ(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
ααααdiatur tinggi sehingga arus (kebanyakan nilai acak) dari Q kurang berpengaruh. berkurang saat pelatihan berlangsung, sehingga pembaruan baru memiliki pengaruh yang semakin sedikit, dan sekarang pembelajaran Q menyatuα