Mengapa huruf Q dipilih atas nama Q-learning?
Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.v
Mengapa huruf Q dipilih atas nama Q-learning?
Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.v
Jawaban:
Maaf mengecewakan semua orang, tapi Q tidak tahan untuk apa pun :)
Q-learning diusulkan oleh Watkins dalam tesis PhD-nya pada tahun 1989, lihat hal.96. Q dalam persamaan pada halaman itu diperbarui dengan cara tertentu pada setiap langkah. Q adalah pengembalian yang diharapkan dari tindakan pada kondisi tertentu, lihat definisi Q pada hal.46. Pengembalian dalam arti teori ekonomi atau permainan, yaitu diskon probabilitas tertimbang, bukan istilah ilmu komputer seperti pengembalian dari suatu fungsi.
Perhatikan, bagaimana dia sudah menggunakan P untuk probabilitas dan R untuk hadiah, jadi dia meraih Q untuk pengembalian. Itu dia. Tidak ada arti yang lebih dalam untuk pilihan huruf Q.
Alasan Q-Learning disebut demikian karena menggunakan nilai Q untuk membentuk perkiraan itu. Aturan pembelajaran yang biasa adalah, dan harus jelas mengapa ini disebut Q-Learning.
Tetapi pertanyaan aktual dalam pandangan saya adalah mengapa Q-Learning disebut demikian. Meskipun sepertinya tidak ada jawaban yang memuaskan, tautan ini menyebutkan bahwa Andrew Barto , yang merupakan salah satu pendiri Modern Reinforcement Learning, berpendapat bahwa adalah singkatan dari Quality, disebut demikian karena itu mencirikan seberapa baik hasil dari menarik lengan akan menjadi.