Mengenal ruang tindakan / keadaan berkelanjutan MDP dan Penguatan Pembelajaran

Sebagian besar pengantar bidang MDP dan pembelajaran Penguatan fokus secara eksklusif pada domain di mana variabel ruang dan tindakan adalah bilangan bulat (dan terbatas). Dengan cara ini kami diperkenalkan dengan cepat ke Iterasi Nilai, Q-Learning, dan sejenisnya.

Namun aplikasi yang paling menarik (misalnya, helikopter terbang ) RL dan MDP melibatkan ruang keadaan kontinu dan ruang tindakan. Saya ingin melampaui perkenalan dasar dan fokus pada kasus-kasus ini tetapi saya tidak yakin bagaimana menuju ke sana.

Bidang apa yang perlu saya ketahui atau pelajari untuk memahami kasus-kasus ini secara mendalam?

research reinforcement-learning control-problem

— CarrKnight
sumber

Ada survei kecil tentang keadaan berkelanjutan, tindakan dan waktu dalam pembelajaran penguatan dalam proposal tesis saya .

Mengenai buku, Penguatan Pembelajaran: State-of-the-Art tampaknya cukup up-to-date dari kutipan yang saya baca.

— rcpinto
sumber