SARSA dan Pembelajaran Q keduanya adalah algoritma pembelajaran penguatan yang bekerja dengan cara yang sama. Perbedaan yang paling mencolok adalah bahwa SARSA memiliki kebijakan sementara Q Learning tidak aktif. Aturan pembaruan adalah sebagai berikut:
Q Belajar:
SARSA:
di mana dan adalah status, aksi, dan hadiah pada langkah waktu dan adalah faktor diskon.
Mereka sebagian besar terlihat sama kecuali bahwa di SARSA kami mengambil tindakan nyata dan di Q Learning kami mengambil tindakan dengan hadiah tertinggi.
Adakah pengaturan teoretis atau praktis di mana yang satu lebih suka yang satu daripada yang lain? Saya dapat melihat bahwa mengambil yang maksimum dalam Q Learning dapat menjadi mahal dan bahkan lebih lagi di ruang tindakan berkelanjutan. Tetapi apakah ada hal lain?