Jawaban:
Untuk jawaban yang baik di sini, saya akan menambahkan
Tinjauan singkat tentang RL : Sebagian besar konsep penting di satu tempat.
Tinjauan singkat lainnya , dalam format presentasi.
Tur RL Ben Recht dari orang luar cukup komprehensif dan mudah diakses.
Persamaan Bellman : pusat ke seluruh teori RL.
Gradien kebijakan dijelaskan oleh Andrej Karpathy (disebutkan dalam jawaban lain sebagai "pong dari piksel", ini tautannya).
Ini hampir tidak menggores permukaan RL, tetapi mereka harus membantu Anda memulai.
Ada daftar putar Youtube (di saluran DeepMind ) yang judulnya adalah Pengantar pembelajaran penguatan , yang merupakan kursus (dari 10 pelajaran) tentang pembelajaran penguatan oleh David Silver .
Seseorang yang mengikuti dan menyelesaikan kursus menulis (sebagai komentar Youtube):
Tentu saja sangat baik. Dipacu dengan baik, cukup banyak contoh untuk memberikan intuisi yang baik, dan diajarkan oleh seseorang yang memimpin bidang dalam menerapkan RL ke game.
Sebelum itu tanyakan pada diri Anda apakah Anda benar-benar ingin belajar tentang "belajar penguatan." Meskipun ada banyak hype tentang pembelajaran penguatan, penerapan pembelajaran penguatan dunia nyata hampir tidak ada. Sebagian besar kursus online mengajarkan Anda sedikit tentang pembelajaran mesin, jadi jauh lebih baik untuk menyelesaikannya, daripada melanjutkan ke pembelajaran penguatan. Belajar penguatan belajar agak berbeda dari belajar tentang teknik belajar tanpa pengawasan / diawasi.
Karena itu, cara tercepat untuk mendapatkan pemahaman yang baik tentang pembelajaran penguatan adalah sebagai berikut:
Tonton kuliah Deep RL Bootcamp .
Untuk memahami matematika di balik teknik-teknik ini, lihat Sutton and Barto Reinforcement Learning: An Introduction .
Baca makalah yang relevan (bermain game dll.).
PS: Pastikan bahwa Anda teliti dengan dasar-dasar jaringan saraf, karena sebagian besar makalah saat ini di RL melibatkan penggunaan DNN dalam beberapa atau dengan cara lain sebagai aproksimasi.
Baru-baru ini saya melihat kursus oleh Microsoft di edx. Itu disebut 'Reinforcement Learning Explained'.
Inilah tautannya: https://www.edx.org/course/reinforcement-learning-explained-0 Ini tidak cukup komprehensif tetapi setidaknya memberikan titik awal yang baik.
Saya akan mengatakan posting ini adalah suatu keharusan untuk dibaca:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo dilatih dengan pembelajaran penguatan.