Dalam makalah yang memperkenalkan DQN " Bermain Atari dengan Deep Reinforcement Learning ", disebutkan:
Perhatikan bahwa ketika belajar dengan replay pengalaman, perlu untuk belajar di luar kebijakan (karena parameter kami saat ini berbeda dengan yang digunakan untuk menghasilkan sampel), yang memotivasi pilihan Q-learning.
Saya tidak begitu mengerti apa artinya itu. Bagaimana jika kita menggunakan SARSA dan mengingat tindakan a'
untuk tindakan yang harus kita ambil dalam s'
memori kita, dan kemudian mengambil sampel dari itu dan memperbarui Q seperti yang kita lakukan di DQN? Dan, bisakah metode aktor-kritik (A3C, untuk spesifik) menggunakan replay pengalaman? Jika tidak, mengapa?
(s, a, r, s')
, dan menarik pengalaman ini untuk memutar ulang; Sekarang anggaplah kebijakan saya saat mengatakan Anda harus mengambila'
dis'
, maka saya tandaQ(s, a)
harusr + Q(s', a')
dan melakukan gradient descent. Saya pikir saya sedang melakukan pengalaman memutar ulang berdasarkan kebijakan. Apakah ada masalah dengan prosesnya?