Mengapa replay pengalaman membutuhkan algoritma off-policy?

Dalam makalah yang memperkenalkan DQN " Bermain Atari dengan Deep Reinforcement Learning ", disebutkan:

Perhatikan bahwa ketika belajar dengan replay pengalaman, perlu untuk belajar di luar kebijakan (karena parameter kami saat ini berbeda dengan yang digunakan untuk menghasilkan sampel), yang memotivasi pilihan Q-learning.

Saya tidak begitu mengerti apa artinya itu. Bagaimana jika kita menggunakan SARSA dan mengingat tindakan a'untuk tindakan yang harus kita ambil dalam s'memori kita, dan kemudian mengambil sampel dari itu dan memperbarui Q seperti yang kita lakukan di DQN? Dan, bisakah metode aktor-kritik (A3C, untuk spesifik) menggunakan replay pengalaman? Jika tidak, mengapa?

reinforcement-learning

— DarkZero
sumber

Metode on-kebijakan, seperti SARSA, mengharapkan bahwa tindakan di setiap negara dipilih berdasarkan kebijakan agen saat ini, yang biasanya cenderung mengeksploitasi hadiah.

Melakukan hal itu, kebijakan menjadi lebih baik ketika kami memperbarui kebijakan kami berdasarkan imbalan terakhir. Khususnya di sini, mereka memperbarui parameter NN yang memprediksi nilai keadaan / tindakan tertentu).

Tetapi, jika kami memperbarui kebijakan berdasarkan transisi yang tersimpan, seperti dalam replay pengalaman, kami sebenarnya mengevaluasi tindakan dari kebijakan yang tidak lagi menjadi kebijakan saat ini, karena ia berkembang dalam waktu, sehingga membuatnya tidak lagi berdasarkan kebijakan.

Nilai Q dievaluasi berdasarkan imbalan di masa mendatang yang akan Anda dapatkan dari negara bagian mengikuti kebijakan agen saat ini.

Namun, itu tidak lagi benar karena Anda sekarang mengikuti kebijakan yang berbeda. Jadi mereka menggunakan metode off-kebijakan umum yang mengeksplorasi berdasarkan pendekatan epsilon-serakah.

— dante
sumber

Terima kasih, tapi saya masih tidak mengerti ini: jika saya menggunakan aturan pembaruan TD (0), ingat transisi (s, a, r, s'), dan menarik pengalaman ini untuk memutar ulang; Sekarang anggaplah kebijakan saya saat mengatakan Anda harus mengambil a'di s', maka saya tanda Q(s, a)harus r + Q(s', a')dan melakukan gradient descent. Saya pikir saya sedang melakukan pengalaman memutar ulang berdasarkan kebijakan. Apakah ada masalah dengan prosesnya?

— DarkZero

Saya percaya bahwa masalahnya adalah bahwa, karena Anda sekarang menggunakan kebijakan yang berbeda dari sebelumnya, dan tindakan itu dipilih menggunakan kebijakan lama, Anda tidak dapat benar-benar mengatakan bahwa itu ada pada kebijakan: untuk mengevaluasi mengoreksi nilai Q dari suatu kebijakan Anda harus melakukan banyak tindakan dengan tindakan yang sama. Di sini Anda mencoba untuk mengevaluasi kebijakan saat ini menggunakan tindakan yang kebijakan itu tidak dapat memilih.

— dante

Jadi bisakah saya mengatakan bahwa saya melakukannya di luar kebijakan di sini? Apa yang akan menjadi hasil dari melakukannya, secara teori?

— DarkZero

Jadi jika saya mengerti Anda, salah satu harus menggunakan metode off-kebijakan seperti Q-learning, selalu memilih maks Q untuk menjadi hadiah yang diharapkan di masa depan. Tidak masalah apa tindakan saat ini, karena itu adalah properti dari pembelajaran Q bahwa jika Anda selalu memilih maks Q untuk masa depan maka Q akan konvergen ke Q di bawah kebijakan optimal; Atau ia harus dengan jujur mengikuti satu kebijakan, memilih setiap tindakan termasuk yang akan datang melalui kebijakan ini, dan melakukan pembaruan sesuai kebijakan. Apakah itu benar?

— DarkZero

Sampai sekarang, saya tidak bisa mengerti mengapa metode on-policy itu bagus. Metode off-kebijakan tampaknya memiliki lebih banyak kebebasan dan dapat menemukan kebijakan yang optimal dengan sendirinya. Maukah Anda juga menjawab stats.stackexchange.com/questions/265354/… ? Terima kasih banyak atas semua diskusi.

— DarkZero

David Silver membahas hal ini dalam ceramah video ini di 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : Replay pengalaman memilih dari menggunakan kebijakan yang berlaku pada saat itu, dan ini adalah salah satu kelebihannya - ini memungkinkan fungsi Q untuk belajar dari kebijakan sebelumnya, yang memecah korelasi status dan kebijakan terkini dan mencegah jaringan dari "terkunci" ke mode perilaku tertentu. $a$ $s$

— dilaudid
sumber