Batas Keyakinan Tertinggi dalam Pembelajaran Mesin

8

Saya menemukan formula untuk mendapatkan batas kepercayaan atas pada masalah bandit bersenjata k:

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$

di mana adalah jumlah sampel yang kami miliki untuk bandit khusus ini dan adalah jumlah total sampel yang kami miliki dari semua bandit. Algoritma yang sama digunakan dalam Pencarian Pohon Monte Carlo juga untuk mendapatkan batas kepercayaan atas. $n_i$ $N_i$

Saya mengerti dengan sangat jelas apa yang dimaksud dengan batas kepercayaan tinggi, tetapi apa yang tidak saya mengerti adalah dari mana formula ini berasal. Saya telah mencoba mencari online di beberapa tempat tetapi tidak dapat menemukan penjelasan yang jelas tentang bagaimana formula ini diturunkan. Adakah yang bisa menjelaskan dari mana formula ini berasal? Harap asumsikan saya tidak memiliki latar belakang statistik yang bagus.

— program catur
sumber

Saya pribadi menemukan banditalgs.com/2016/09/18/the-upper-confidence-bound-algorithm berisi penjelasan yang bagus. Itu memang termasuk beberapa matematika yang berat, tetapi dimungkinkan untuk mendapatkan pemahaman yang baik bahkan ketika melewatkan beberapa persamaan yang lebih berat menurut saya. Baca saja intuisi dan beberapa persamaan yang lebih sederhana

— Dennis Soemers

5

Apa yang Anda miliki di sana biasa disebut istilah eksplorasi. Batas kepercayaan atas adalah mean empiris ditambah istilah eksplorasi ini.

Mari kita pertimbangkan setiap istilah secara terpisah:

$c$ adalah konstanta yang memungkinkan pengguna mengatur trade-off eksplorasi / eksploitasi. Untuk hasil teoretis, sering dioptimalkan untuk masalah yang dihadapi (misalnya bandit bersenjata k dengan prior Gaussian).

$\sqrt{1/n_i}$ sebanding dengan standar deviasi posterior setelah sampel aksi . Pada dasarnya ini mengatakan bahwa ketika Anda menarik lengan lebih sering, ada sedikit yang tidak diketahui tentang lengan. $n_i$ $i$

$\sqrt{ln(N_i)}$ memastikan bahwa Anda tidak berhenti menjelajah terlalu awal. Karena menjadi sangat besar, varians sampel menjadi cukup kecil sehingga kita perlu memberikan kompensasi untuk memastikan bahwa kita tidak pernah sepenuhnya berhenti menjelajah. Sebagian besar matematika teknis menunjukkan bahwa hanya cukup (tetapi tidak terlalu banyak) kompensasi. $N_i$ $\sqrt{ln(N_i)}$

Untuk deskripsi yang lebih teknis, makalah oleh Auer et al. adalah titik awal yang baik.

— kombo
sumber

tautan di bagian akhir tidak berfungsi untuk saya.

— chessprogrammer

Seharusnya bekerja sekarang, maaf soal itu

— kombo

2

Ini berasal dari ketidaksetaraan Hoeffding, yang memberikan batas atas pada probabilitas bahwa jumlah variabel acak terikat independen menyimpang dari nilai yang diharapkan dengan lebih dari jumlah tertentu. Lihat https://en.wikipedia.org/wiki/Hoeffding%27s_inequality untuk informasi lebih lanjut tentang ketidaksetaraan Hoeffding. Lihat teks di sekitar persamaan (3) dalam makalah UCT asli untuk diskusi terperinci terkait dengan UCB1 di pengaturan bandit http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296

— Elang
sumber

Batas Keyakinan Tertinggi dalam Pembelajaran Mesin

cdalamNsayansaya-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}}

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$