Setelah membaca pencapaian google deepmind di game Atari , saya mencoba memahami q-learning dan q-networks, tapi saya agak bingung. Kebingungan muncul dalam konsep faktor diskon. Ringkasan singkat tentang apa yang saya mengerti. Jaringan saraf convolutional yang mendalam digunakan untuk memperkirakan nilai dari nilai yang diharapkan optimal dari suatu tindakan. Jaringan harus meminimalkan fungsi kerugian mana E s ′ [ y | s , a ] adalah E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ - i ) | s,a] DimanaQadalah nilai skor kumulatif danradalah nilai skor untuk tindakan yang dipilih. s,adan s
Dari sudut pandang matematika adalah faktor diskon dan mewakili kemungkinan untuk mencapai keadaan s ' dari negara s .