Perbedaan antara pemrograman dinamis dan pembelajaran perbedaan temporal dalam pembelajaran penguatan

Dalam pembelajaran penguatan, apa perbedaan antara pemrograman dinamis dan pembelajaran perbedaan temporal?

reinforcement-learning

— tdc
sumber

DP memecahkan kebijakan atau fungsi nilai yang optimal dengan rekursi. Dibutuhkan pengetahuan tentang proses keputusan markov (MDP) atau model dunia sehingga rekursi dapat dilakukan. Ini biasanya dikelompokkan di bawah "perencanaan" daripada "belajar", di mana Anda sudah tahu MDP, dan hanya perlu mencari tahu apa yang harus dilakukan (secara optimal).

TD adalah model-bebas: tidak memerlukan pengetahuan tentang model dunia. Itu iteratif, dan berbasis simulasi, dan belajar dengan bootstrap, yaitu nilai suatu negara atau tindakan diperkirakan menggunakan nilai-nilai negara atau tindakan lain.

Untuk info lebih lanjut, lihat:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html