Saya sedang mempertimbangkan pemrograman robot garis berikut menggunakan algoritma pembelajaran penguatan. Pertanyaan yang saya renungkan adalah bagaimana saya bisa mendapatkan algoritma untuk belajar menavigasi melalui jalur sembarang?
Setelah mengikuti Buku Sutton & Barto untuk pembelajaran penguatan, saya menyelesaikan masalah olahraga yang melibatkan arena pacuan kuda di mana agen mobil belajar untuk tidak keluar jalur dan mengatur kecepatannya. Namun, masalah latihan itu membuat agen belajar bagaimana menavigasi trek yang dilatihnya.
Apakah itu dalam lingkup penguatan pembelajaran untuk mendapatkan robot untuk menavigasi jalan sewenang-wenang? Apakah agen benar - benar harus memiliki peta sirkuit atau jalur balapan? Parameter apa yang bisa saya gunakan untuk ruang keadaan saya?