Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?
Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ …