1
Bandit multi-bersenjata untuk distribusi hadiah umum
Saya sedang mengerjakan masalah bandit multi-bersenjata di mana kami tidak memiliki informasi tentang distribusi hadiah. Saya telah menemukan banyak makalah yang menjamin batas penyesalan untuk distribusi dengan batas yang diketahui, dan untuk distribusi umum dengan dukungan pada [0,1]. Saya ingin mencari tahu apakah ada cara untuk bekerja dengan baik di …