Sebagian besar pengantar bidang MDP dan pembelajaran Penguatan fokus secara eksklusif pada domain di mana variabel ruang dan tindakan adalah bilangan bulat (dan terbatas). Dengan cara ini kami diperkenalkan dengan cepat ke Iterasi Nilai, Q-Learning, dan sejenisnya.
Namun aplikasi yang paling menarik (misalnya, helikopter terbang ) RL dan MDP melibatkan ruang keadaan kontinu dan ruang tindakan. Saya ingin melampaui perkenalan dasar dan fokus pada kasus-kasus ini tetapi saya tidak yakin bagaimana menuju ke sana.
Bidang apa yang perlu saya ketahui atau pelajari untuk memahami kasus-kasus ini secara mendalam?