Apa hubungan antara teori permainan dan pembelajaran penguatan?


11

Saya tertarik pada Pembelajaran (Jauh) Penguatan (RL) . Sebelum menyelam ke bidang ini, haruskah saya mengambil kursus di Game Theory (GT) ?

Bagaimana hubungan GT dan RL ?


2
Mereka terkait erat seperti palu dan krim kocok. Anda mungkin dapat menemukan masalah di mana Anda dapat menggunakan keduanya, tetapi itu tidak umum.
Don Reba

4
@ DonReba Tidak menurut dua peneliti terkenal di Reinforcement Learning: udacity.com/course/… Saya pikir Teori Game memberi tahu Anda apa kebijakan optimal, sementara RL memberi tahu Anda bagaimana agen dapat mempelajari kebijakan optimal atau yang baik.
Kiuhnm

3
@ DonReba, mungkin dalam hal konten biasa yang diajarkan di dalamnya. Namun, tujuan kedua bidang tersebut tidak begitu berbeda. Pembelajaran penguatan bisa dipandang sebagai permainan informasi yang tidak sempurna, seringkali untuk satu pemain. Atau sebagai permainan dua pemain di mana pemain lain, alam, mengikuti serangkaian aturan yang ingin Anda temukan.
dugaan

1
Ini mendidik. :)
Don Reba

Jawaban:


12

Dalam Reinforcement Learning (RL), adalah umum untuk membayangkan Markov Decision Process (MDP) yang mendasarinya. Maka tujuan RL adalah untuk mempelajari kebijakan yang baik untuk MDP, yang seringkali hanya ditentukan sebagian. MDP dapat memiliki tujuan yang berbeda seperti total, rata-rata, atau hadiah diskon, di mana hadiah diskon adalah asumsi paling umum untuk RL. Ada ekstensi MDP yang dipelajari dengan baik untuk pengaturan dua pemain (yaitu, game); lihat, misalnya,

Filar, Jerzy, dan Koos Vrieze. Proses pengambilan keputusan Markov yang kompetitif . Springer Science & Business Media, 2012.

Ada teori dasar yang dibagikan oleh MDP dan ekstensi mereka ke dua pemain (zero-sum) game, termasuk, misalnya, teorema titik tetap Banach, Iterasi Nilai, Optimalitas Bellman, Iterasi Kebijakan / Peningkatan Strategi dll. Namun, saat ada koneksi dekat ini antara MDP (dan karenanya RL) dan jenis game khusus ini:

  • Anda dapat mempelajari tentang RL (dan MDP) secara langsung, tanpa GT sebagai prasyarat;
  • lagi pula, Anda tidak akan belajar tentang hal ini di sebagian besar kursus GT (yang biasanya akan difokuskan pada, misalnya, permainan strategi-bentuk, permainan luas, dan berulang, tetapi bukan permainan tak terbatas berbasis negara yang menggeneralisasi MDP).


0

RL: Agen tunggal dilatih untuk memecahkan masalah keputusan Markov (MDPS). GT: Dua agen dilatih untuk menyelesaikan Game. Pembelajaran Penguatan multi-agen (MARL) dapat digunakan untuk menyelesaikan untuk game stokastik.

Jika Anda tertarik dengan aplikasi agen tunggal RL dalam pembelajaran mendalam, maka Anda tidak perlu mengikuti kursus GT. Untuk dua atau lebih agen, Anda mungkin perlu mengetahui teknik teori permainan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.