2
Kapan metode Monte Carlo lebih disukai daripada yang perbedaan temporal?
Saya telah melakukan banyak penelitian tentang Penguatan Pembelajaran akhir-akhir ini. Saya mengikuti Pembelajaran Penguatan Sutton & Barto : Pengantar untuk sebagian besar dari ini. Saya tahu apa itu Proses Keputusan Markov dan bagaimana pembelajaran Dynamic Programming (DP), Monte Carlo dan Temporal Difference (DP) dapat digunakan untuk menyelesaikannya. The Masalah Saya …