Tinjauan Umum tentang Algoritma Pembelajaran Penguatan

Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer.

Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang berbeda tetapi tidak ada referensi untuk algoritma yang berbeda yang menerapkan metode ini.

Tapi mungkin saya membingungkan pendekatan umum dan algoritma dan pada dasarnya tidak ada klasifikasi nyata di bidang ini, seperti di bidang pembelajaran mesin lainnya. Bisakah seseorang memberi saya pengantar singkat atau hanya referensi di mana saya bisa mulai membaca pendekatan yang berbeda, perbedaan antara mereka dan contoh algoritma yang menerapkan pendekatan ini?

reinforcement-learning q-learning

— yunani57
sumber

Terkait: Sumber daya untuk memulai dengan pembelajaran penguatan yang mendalam

— Franck Dernoncourt

Ada makalah survei yang bagus di sini .

$\pi$

Metode-metode ini termasuk algoritma REINFORCE yang populer, yang merupakan algoritma gradien kebijakan. TRPO dan GAE adalah algoritma gradien kebijakan yang serupa.

Ada banyak varian lain pada gradien kebijakan dan dapat dikombinasikan dengan pembelajaran Q dalam kerangka aktor-kritik. Algoritma A3C - aktor-kritik keuntungan asinkron - adalah salah satu algoritma aktor-kritik tersebut, dan dasar yang sangat kuat dalam pembelajaran penguatan.

$\pi$

Selain Q-learning dan gradien kebijakan, yang keduanya diterapkan dalam pengaturan bebas model (tidak ada algoritma yang mempertahankan model dunia), ada juga metode berbasis model yang memperkirakan kondisi dunia. Model-model ini berharga karena mereka bisa jauh lebih efisien sampel.

Algoritma berbasis model tidak eksklusif dengan gradien kebijakan atau pembelajaran Q. Pendekatan umum adalah melakukan estimasi negara / mempelajari model dinamika, dan kemudian melatih kebijakan di atas perkiraan negara.

Jadi untuk klasifikasi, satu gangguan akan

Pembelajaran fungsi Q atau V
Metode berbasis kebijakan
Berbasis model

Metode berbasis kebijakan selanjutnya dapat dibagi lagi menjadi

Gradien kebijakan
Aktor Kritikus
Pencarian kebijakan

— shimao
sumber