Berikut adalah dua makalah survei yang saya temukan baru-baru ini. Saya belum membacanya, tetapi abstraknya terdengar menjanjikan.
Joann`s Vermorel dan Mehryar Mohri: Algoritma Bandit Multi-Armed dan Evaluasi Empiris (2005)
Dari abstrak:
Masalah bandit multi-bersenjata bagi seorang penjudi adalah memutuskan lengan mana dari mesin K-slot yang akan ditarik untuk memaksimalkan total hadiahnya dalam serangkaian uji coba. Banyak masalah pembelajaran dan pengoptimalan di dunia nyata dapat dimodelkan dengan cara ini. Beberapa strategi atau algoritma telah diusulkan sebagai solusi untuk masalah ini dalam dua dekade terakhir, tetapi, setahu kami, belum ada evaluasi umum untuk algoritma ini.
Volodymyr Kuleshov dan Doina Precup: Algoritma untuk masalah bandit multi-bersenjata (2000) Dari abstrak:
Kedua, kinerja sebagian besar algoritma bervariasi secara dramatis dengan parameter masalah bandit. Studi kami mengidentifikasi untuk setiap algoritma pengaturan di mana kinerjanya baik, dan pengaturan di mana kinerjanya buruk.