Apa hubungan antara metode Q-learning dan kebijakan gradien?

Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri.

Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi imbalan maksimum untuk suatu tindakan (pembelajaran Q) setara dengan memprediksi probabilitas untuk mengambil tindakan secara langsung (PG). Apakah perbedaan cara kerugian itu diperbanyak kembali?

— Tejas Ramdas
sumber

Namun, kedua pendekatan tersebut tampak identik dengan saya yaitu memprediksi hadiah maksimum untuk suatu tindakan (pembelajaran Q) setara dengan memprediksi probabilitas untuk mengambil tindakan secara langsung (PG).

Kedua metode secara teoritis didorong oleh konstruksi Proses Keputusan Markov , dan sebagai hasilnya menggunakan notasi dan konsep yang sama. Selain itu, dalam lingkungan sederhana yang dapat dipecahkan, Anda harus mengharapkan kedua metode menghasilkan kebijakan optimal yang sama - atau setidaknya setara - optimal.

Namun, mereka sebenarnya berbeda secara internal. Perbedaan yang paling mendasar antara pendekatan adalah bagaimana mereka mendekati seleksi tindakan, baik sambil belajar, dan sebagai output (kebijakan yang dipelajari). Dalam Q-learning, tujuannya adalah untuk mempelajari tindakan deterministik tunggal dari serangkaian tindakan terpisah dengan menemukan nilai maksimum. Dengan gradien kebijakan, dan pencarian kebijakan langsung lainnya, tujuannya adalah mempelajari peta dari keadaan ke tindakan, yang bisa bersifat stokastik, dan bekerja dalam ruang tindakan berkelanjutan.

Akibatnya, metode gradien kebijakan dapat memecahkan masalah yang metode berbasis nilai tidak dapat:

Ruang aksi besar dan berkelanjutan. Namun, dengan metode berbasis nilai, ini masih dapat didekati dengan diskritisasi - dan ini bukan pilihan yang buruk, karena fungsi pemetaan dalam gradien kebijakan harus menjadi semacam pendekatan dalam praktik.
Kebijakan stokastik. Metode berbasis nilai tidak dapat menyelesaikan suatu lingkungan di mana kebijakan optimal adalah stokastik yang membutuhkan probabilitas khusus, seperti Gunting / Kertas / Batu. Itu karena tidak ada parameter yang bisa dilatih dalam pembelajaran Q yang mengontrol probabilitas tindakan, perumusan masalah dalam pembelajaran TD mengasumsikan bahwa agen deterministik bisa optimal.

Namun, metode berbasis nilai seperti Q-learning juga memiliki beberapa kelebihan:

$p(a \mid s, \theta)$ $\theta$
Kecepatan. Metode pembelajaran TD yang bootstrap seringkali jauh lebih cepat untuk mempelajari suatu kebijakan daripada metode yang harus murni mengambil sampel dari lingkungan untuk mengevaluasi kemajuan.

Ada alasan lain mengapa Anda mungkin ingin menggunakan satu atau pendekatan lain:

Anda mungkin ingin mengetahui hasil yang diprediksi saat proses berjalan, untuk membantu proses perencanaan lain yang terkait dengan agen.
Representasi negara dari masalah cenderung lebih mudah baik untuk fungsi nilai atau fungsi kebijakan. Fungsi nilai mungkin ternyata memiliki hubungan yang sangat sederhana dengan negara dan fungsi kebijakan sangat kompleks dan sulit dipelajari, atau sebaliknya .

Beberapa pemecah RL yang canggih benar-benar menggunakan kedua pendekatan secara bersamaan, seperti Actor-Critic. Ini menggabungkan kekuatan metode nilai dan gradien kebijakan.

— Neil Slater
sumber

Apa maksud Anda ketika Anda mengatakan bahwa aktor-kritik menggabungkan kekuatan dari kedua metode? Menurut pemahaman saya, aktor mengevaluasi tindakan terbaik yang diambil berdasarkan negara, dan kritik menilai nilai negara itu, lalu memberi hadiah kepada aktor. Memperlakukan mereka sebagai satu unit "Kebijakan" masih tampak seperti gradien kebijakan bagi saya. Mengapa ini sebenarnya seperti belajar Q?

— Gulzar

@ Guuar: Kritik belajar menggunakan metode berbasis nilai (misalnya Q-learning). Jadi, secara keseluruhan, aktor-kritik adalah kombinasi dari metode nilai dan metode gradien kebijakan, dan itu manfaat dari kombinasi tersebut. Salah satu peningkatan penting atas "vanilla" PG adalah bahwa gradien dapat dinilai pada setiap langkah, bukan pada akhir setiap episode. Jika Anda mencari jawaban yang lebih rinci tentang hal ini, Anda harus mengajukan pertanyaan di situs.

— Neil Slater

@ Guuar: Sebenarnya menggaruk (misalnya Q-learning) karena saya semakin bingung antara aktor-kritikus keuntungan (yang menyesuaikan baseline untuk didasarkan pada nilai-nilai tindakan) dan kritikus yang biasanya merupakan nilai negara yang lebih sederhana. Namun, selebihnya uraian saya masih sama, kritik biasanya diperbarui menggunakan metode TD berbasis nilai, di mana pembelajaran Q juga merupakan contoh.

— Neil Slater