Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut:
Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut:
Pertanyaanku adalah:
mengapa dalam Q-learning tidak ada probabilitas transisi . Apakah ini berarti kita tidak memerlukan ini saat memodelkan MDP?