5
Apa fungsi Q dan apa fungsi V dalam pembelajaran penguatan?
Sepertinya saya bahwa fungsi dapat dengan mudah diekspresikan oleh fungsi dan dengan demikian fungsi tampaknya berlebihan bagi saya. Namun, saya baru belajar penguatan, jadi saya kira ada yang salah.VVVQQQVVV Definisi Pembelajaran Q dan V berada dalam konteks Proses Keputusan Markov . Sebuah MDP adalah 5-tuple dengan(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) …