Algoritme bandit terbaik?

27

Algoritme bandit yang paling terkenal adalah UCB yang memopulerkan kelas algoritma ini. Sejak itu saya kira sekarang ada algoritma yang lebih baik. Apa algoritma terbaik saat ini (dalam hal kinerja empiris atau batas teoritis)? Apakah algoritma ini optimal dalam beberapa hal?

— Artem Kaznatcheev
sumber

25

Sebuah makalah dari NIPS 2011 ("Evaluasi empiris Thompson Sampling") menunjukkan, dalam percobaan, bahwa Thompson Sampling mengalahkan UCB. UCB didasarkan pada memilih tuas yang menjanjikan hadiah tertinggi berdasarkan asumsi optimis (yaitu varians estimasi Anda terhadap hadiah yang diharapkan tinggi, oleh karena itu Anda menarik tuas yang tidak Anda ketahui dengan baik). Sebaliknya, Thompson Sampling sepenuhnya Bayesian: ia menghasilkan konfigurasi bandit (yaitu vektor hadiah yang diharapkan) dari distribusi posterior, dan kemudian bertindak seolah-olah ini adalah konfigurasi yang benar (yaitu menarik tuas dengan hadiah yang diharapkan tertinggi).

Aturan Kontrol Bayesian (" Prinsip Entropi Relatif Minimum untuk Belajar dan Bertindak ", JAIR), generalisasi dari Thompson Sampling, diambil dari Thompson Sampling dari prinsip-prinsip teori informasi dan kausalitas. Secara khusus, ditunjukkan bahwa Aturan Kontrol Bayesian adalah strategi optimal ketika Anda ingin meminimalkan KL antara strategi Anda dan strategi optimal (tidak diketahui) dan jika Anda mempertimbangkan kendala sebab akibat. Alasan mengapa ini penting adalah karena ini dapat dilihat sebagai perpanjangan dari Bayesian inferensi terhadap tindakan: Bayesian inferensi dapat ditunjukkan sebagai strategi prediksi yang optimal ketika kriteria kinerja Anda adalah KL antara estimator Anda dan (true) distribusi yang sebenarnya.

— Pedro A. Ortega
sumber

16

UCB memang mendekati optimal dalam kasus stokastik (hingga faktor T log untuk pertandingan putaran T), dan hingga kesenjangan dalam ketidaksetaraan Pinsker dalam arti masalah yang lebih tergantung. Makalah Audibert dan Bubeck baru-baru ini menghilangkan ketergantungan log ini dalam kasus terburuk, tetapi memiliki ikatan yang lebih buruk dalam kasus menguntungkan ketika lengan yang berbeda memiliki hadiah yang dipisahkan dengan baik.

Secara umum, UCB adalah salah satu kandidat dari keluarga besar algoritma. Pada titik mana pun dalam permainan, Anda dapat melihat semua lengan yang tidak "didiskualifikasi", yaitu, yang batas kepercayaan atasnya tidak lebih kecil dari batas kepercayaan yang lebih rendah dari beberapa lengan. Memilih berdasarkan distribusi senjata yang memenuhi syarat tersebut merupakan strategi yang valid dan mendapatkan penyesalan yang sama hingga konstanta.

Secara empiris, saya tidak berpikir telah ada evaluasi yang signifikan dari banyak strategi yang berbeda, tetapi saya pikir UCB seringkali cukup baik.

Sebagian besar penelitian yang lebih baru telah berfokus pada memperluas masalah bandit di luar pengaturan K-bersenjata sederhana dengan imbalan stokastik, ke ruang tindakan yang sangat besar (atau tak terbatas), dengan atau tanpa informasi sampingan, dan di bawah umpan balik stokastik atau permusuhan. Ada juga pekerjaan dalam skenario di mana kriteria kinerja berbeda (seperti identifikasi lengan terbaik saja).

4

Keadaan seni saat ini dapat disimpulkan seperti ini:

stochastic: UCB dan varian (penyesalan dalam ) $R_T = O(\frac{K \log T}{\Delta})$
permusuhan: EXP3 dan varian (penyesalan dalam ) $\tilde{R}_T = O(\sqrt{T K \log K})$
kontekstual: rumit

dengan adalah jumlah putaran, jumlah lengan, perbedaan sejati antara lengan terbaik dan terbaik kedua (celah). $T$ $K$ $\Delta$

— oDDsKooL
sumber