1
Mengenal ruang tindakan / keadaan berkelanjutan MDP dan Penguatan Pembelajaran
Sebagian besar pengantar bidang MDP dan pembelajaran Penguatan fokus secara eksklusif pada domain di mana variabel ruang dan tindakan adalah bilangan bulat (dan terbatas). Dengan cara ini kami diperkenalkan dengan cepat ke Iterasi Nilai, Q-Learning, dan sejenisnya. Namun aplikasi yang paling menarik (misalnya, helikopter terbang ) RL dan MDP melibatkan …