Arti faktor diskon pada pembelajaran penguatan

Setelah membaca pencapaian google deepmind di game Atari , saya mencoba memahami q-learning dan q-networks, tapi saya agak bingung. Kebingungan muncul dalam konsep faktor diskon. Ringkasan singkat tentang apa yang saya mengerti. Jaringan saraf convolutional yang mendalam digunakan untuk memperkirakan nilai dari nilai yang diharapkan optimal dari suatu tindakan. Jaringan harus meminimalkan fungsi kerugian mana adalah Dimanaadalah nilai skor kumulatif danadalah nilai skor untuk tindakan yang dipilih. dan

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

adalah masing-masing negara dan tindakan memilih pada saat

dan negara dan tindakan pada saat

. The

adalah bobot dari jaringan pada iterasi sebelumnya. The

adalah faktor diskon yang memperhitungkan perbedaan temporal nilai skor. The

subscript adalah langkah temporal. Masalahnya di sini adalah untuk memahami mengapa

tidak tergantung pada

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

Dari sudut pandang matematika adalah faktor diskon dan mewakili kemungkinan untuk mencapai keadaan dari negara . $\gamma$ $s'$ $s$

$Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— emanuele
sumber

$s′$ $s$ $p(s'|s,a)$ $γ$ $y$ $s$ adalah hadiah instan untuk keadaan ini ditambah apa yang Anda harapkan diterima di masa depan mulai dari . Tetapi istilah masa depan itu harus didiskon, karena hadiah di masa depan mungkin tidak (jika ) memiliki nilai yang sama dengan menerima hadiah sekarang (seperti kita lebih suka menerima $ 100 sekarang daripada besok $ 100). Terserah Anda untuk memilih seberapa besar Anda ingin mendepresiasi hadiah masa depan Anda (itu tergantung masalah). Faktor diskon 0 berarti Anda hanya peduli pada hadiah langsung. Semakin tinggi faktor diskon Anda, semakin jauh ganjaran Anda akan bertambah seiring waktu. $s$ $γ < 1$

Saya sarankan Anda membaca buku Sutton & Barto sebelum mencoba Deep-Q untuk mempelajari Penguatan Pembelajaran murni di luar konteks jaringan saraf, yang mungkin membingungkan Anda.

— rcpinto
sumber

Terima kasih atas jawaban Anda, tapi saya masih ragu. Saya berpikir keras. Bayangkan pada setiap langkah Anda menerima skor dan Anda harus membayar untuk mulai bermain. Bagaimana cara menghitung nilai yang diharapkan? Baiklah karena Anda menambahkan nilai pada momen yang berbeda di masa mendatang, bukan?

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

— emanuele

Baiklah, saya akan mencapai titik impas jika berapa nilai yang benar untuk ? Nilai yang benar untuk adalah nilai yang memungkinkan saya trade-off antara hadiah saat ini dan masa depan dan . adalah probabilitas untuk bertahan pada langkah dan itulah mengapa . Ceknya adalah mana peluang untuk bertahan di setiap langkah dan merupakan rentang hidup yang diharapkan.

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$

— emanuele