Bagian penting dari teks yang dikutip adalah:
Untuk melakukan replay pengalaman, kami menyimpan pengalaman agenet=(st,at,rt,st+1)
Ini berarti alih-alih menjalankan Q-learning pada pasangan state / action saat terjadi selama simulasi atau pengalaman aktual, sistem menyimpan data yang ditemukan untuk [state, action, reward, next_state] - biasanya dalam tabel besar. Catatan ini tidak menyimpan nilai terkait - ini adalah data mentah untuk dimasukkan ke dalam perhitungan nilai tindakan nanti.
Tahap pembelajaran kemudian secara logis terpisah dari mendapatkan pengalaman, dan berdasarkan pada pengambilan sampel acak dari tabel ini. Anda masih ingin menyatukan kedua proses - bertindak dan belajar - karena meningkatkan kebijakan akan mengarah pada perilaku berbeda yang harus mengeksplorasi tindakan yang lebih dekat dengan yang optimal, dan Anda ingin belajar dari itu. Namun, Anda dapat membagi ini sesuka Anda - mis. Ambil satu langkah, pelajari dari tiga langkah acak sebelumnya, dll. Target Q-Learning saat menggunakan replay pengalaman menggunakan target yang sama dengan versi online, jadi tidak ada formula baru untuk itu. Formula kehilangan yang diberikan juga adalah yang akan Anda gunakan untuk DQN tanpa replay pengalaman. Perbedaannya hanya yang s, a, r, s ', a' yang Anda masukkan.
Di DQN, tim DeepMind juga memelihara dua jaringan dan mengganti jaringan mana yang sedang dipelajari dan mana yang memasukkan perkiraan nilai tindakan saat ini sebagai "bootstraps". Ini membantu dengan stabilitas algoritma ketika menggunakan penduga fungsi non-linear. Itulah arti bilah dalam - ini menunjukkan versi bobot bobot alternatif yang dibekukan .θ ¯i
Keuntungan dari replay pengalaman:
Lebih efisien menggunakan pengalaman sebelumnya, dengan belajar dengannya berkali-kali. Ini adalah kunci ketika mendapatkan pengalaman dunia nyata itu mahal, Anda bisa menggunakannya sepenuhnya. Pembaruan Q-learning bersifat inkremental dan tidak konvergen dengan cepat, sehingga beberapa lintasan dengan data yang sama bermanfaat, terutama ketika ada varians yang rendah dalam hasil langsung (hadiah, kondisi berikutnya) dengan kondisi yang sama, pasangan tindakan.
Perilaku konvergensi yang lebih baik ketika melatih aproksimator fungsi. Sebagian ini karena data lebih seperti data iid yang diasumsikan dalam kebanyakan bukti konvergensi pembelajaran yang diawasi.
Kerugian dari replay pengalaman:
- Lebih sulit untuk menggunakan algoritma pembelajaran multi-langkah, seperti Q ( ), yang dapat disesuaikan untuk memberikan kurva belajar yang lebih baik dengan menyeimbangkan antara bias (karena bootstrap) dan varians (karena keterlambatan dan keacakan dalam hasil jangka panjang) ). Multi-step DQN dengan experience-replay DQN adalah salah satu ekstensi yang dieksplorasi dalam makalah Rainbow: Menggabungkan Peningkatan dalam Pembelajaran Penguatan Dalam .λ
Pendekatan yang digunakan dalam DQN secara singkat diuraikan oleh David Silver di beberapa bagian dari video ceramah ini (sekitar 01:17:00, tetapi layak untuk melihat bagian sebelumnya). Saya sarankan menonton seluruh seri, yang merupakan kursus tingkat pascasarjana tentang pembelajaran penguatan, jika Anda punya waktu.