Mengapa huruf Q dipilih dalam Q-learning?


17

Mengapa huruf Q dipilih atas nama Q-learning?

Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.vπv


1
Dalam pemahaman metaforis saya, Q adalah fungsi yang mengaitkan kuantitas (sebut saja hadiah, biaya atau apa pun yang sedang dioptimalkan) untuk tindakan dalam keadaan tertentu.
ketuk

1
@sycorax pertanyaan asli yang dibingkai menyiratkan pemahaman tentang pembelajaran Q dan untuk menawarkan penjelasan, itu akan membantu untuk menambah konteks. OP akan hilang dengan penjelasan apa pun tanpa membuat landasan.
knk

Apakah metaforis Q = Kuantitas membantu? Saya menganggapnya sebagai kuantifikasi tindakan yang diberikan negara
knk

Jawaban:


35

Maaf mengecewakan semua orang, tapi Q tidak tahan untuk apa pun :)

Q-learning diusulkan oleh Watkins dalam tesis PhD-nya pada tahun 1989, lihat hal.96. Q dalam persamaan pada halaman itu diperbarui dengan cara tertentu pada setiap langkah. Q adalah pengembalian yang diharapkan dari tindakan pada kondisi tertentu, lihat definisi Q pada hal.46. Pengembalian dalam arti teori ekonomi atau permainan, yaitu diskon probabilitas tertimbang, bukan istilah ilmu komputer seperti pengembalian dari suatu fungsi.

Perhatikan, bagaimana dia sudah menggunakan P untuk probabilitas dan R untuk hadiah, jadi dia meraih Q untuk pengembalian. Itu dia. Tidak ada arti yang lebih dalam untuk pilihan huruf Q.


3
Tidak ada makna yang lebih dalam tetapi itu adalah makna (bahwa Q cocok dengan P dan R dalam alfabet) dan merupakan singkatan dari sesuatu .
Sextus Empiricus

2
@ MartijnWeterings Ini bukan arti sama sekali. Ini adalah pilihan surat yang murni sintaksis, tanpa pertimbangan semantik sama sekali.
David Richerby

Tentu, mungkin ada beberapa pertimbangan semantik (dan ini mungkin diperdebatkan karena perbedaan antara huruf latin atau yunani, huruf dalam posisi alfabet yang berbeda, atau huruf besar versus huruf kecil mungkin membentuk area abu-abu antara sintaksis dan semantik). Saya menganggap pilihan Q sebagai 'bermakna' karena bentuk surat (Yang agak arbitrer) memang mengungkapkan beberapa memperluas arti dari variabel / parameter. Artinya berhubungan dengan pilihan huruf. Tidak akan ada pilihan yang baik ketika u atau v akan dipilih, atau i, j, k atau x, y, z atau . α,β,γ
Sextus Empiricus

@ MartijnWeterings, Q juga terdengar seperti antrian , yang membawa konotasi yang agak relevan juga
Aksakal

@ Aksakal, yang mungkin telah memperkuat penggunaan Q. Tapi, saya tidak berpikir itu kuat Saya tidak tahu banyak tentang topik ini, tetapi dalam ikhtisar singkat dari tesis itu kepada saya tampaknya sangat masuk akal bahwa huruf telah digunakan untuk kuantitas seperti atau . Akhirnya 'beberapa nama' seperti 'nilai tindakan' diberikan kepadanya tetapi huruf-huruf yang digunakan dalam tesis itu tampaknya lebih melekat pada alfabet. Misalnya untuk fungsi untuk variabel untuk fungsi nilai dan perkiraannya. , dll.i R i P i i V i P i f g h x y V UQiRiPiiViPif g hx yV U
Sextus Empiricus

0

Alasan Q-Learning disebut demikian karena menggunakan nilai Q untuk membentuk perkiraan itu. Aturan pembelajaran yang biasa adalah, dan harus jelas mengapa ini disebut Q-Learning.Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Tetapi pertanyaan aktual dalam pandangan saya adalah mengapa Q-Learning disebut demikian. Meskipun sepertinya tidak ada jawaban yang memuaskan, tautan ini menyebutkan bahwa Andrew Barto , yang merupakan salah satu pendiri Modern Reinforcement Learning, berpendapat bahwa adalah singkatan dari Quality, disebut demikian karena itu mencirikan seberapa baik hasil dari menarik lengan akan menjadi.Q


2
Baca tesis itu dan ceritakan bagaimana "kualitas" masuk akal dalam konteks pengembalian yang diharapkan
Aksakal

Meskipun saya setuju dengan Anda, tesis ini ditulis setelah Watkins berkonsultasi dengan Andy tentang sejumlah hal. Andy mungkin punya ide yang lebih baik daripada yang kau kira.
Ameet Deshpande

Kualitas bahkan tidak ada sebagai konsep yang berbeda dalam pembelajaran. Anda dapat menggunakan kata itu dalam arti biasa dari bahasa Inggris, tentu saja. Pengembalian yang diharapkan, di sisi lain, sangat didefinisikan dengan baik dalam teori permainan, tidak perlu mencairkannya dengan melampirkan konsep-konsep yang tidak jelas seperti kualitas. Anda tidak memaksimalkan kualitas, Anda memaksimalkan hadiah diskon di bawah ukuran probabilitas yang sesuai. Jika Anda ingin menjadi sedikit lebih luas, maka Anda dapat memaksimalkan utilitas.
Aksakal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.