Saya menemukan formula untuk mendapatkan batas kepercayaan atas pada masalah bandit bersenjata k:
di mana adalah jumlah sampel yang kami miliki untuk bandit khusus ini dan adalah jumlah total sampel yang kami miliki dari semua bandit. Algoritma yang sama digunakan dalam Pencarian Pohon Monte Carlo juga untuk mendapatkan batas kepercayaan atas.
Saya mengerti dengan sangat jelas apa yang dimaksud dengan batas kepercayaan tinggi, tetapi apa yang tidak saya mengerti adalah dari mana formula ini berasal. Saya telah mencoba mencari online di beberapa tempat tetapi tidak dapat menemukan penjelasan yang jelas tentang bagaimana formula ini diturunkan. Adakah yang bisa menjelaskan dari mana formula ini berasal? Harap asumsikan saya tidak memiliki latar belakang statistik yang bagus.