Statistik dan Big Data multiarmed-bandit

3

Algoritme bandit yang paling terkenal adalah UCB yang memopulerkan kelas algoritma ini. Sejak itu saya kira sekarang ada algoritma yang lebih baik. Apa algoritma terbaik saat ini (dalam hal kinerja empiris atau batas teoritis)? Apakah algoritma ini optimal dalam beberapa hal?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?

Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik: Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal …

15 algorithms reinforcement-learning multiarmed-bandit

1

Fungsi biaya untuk bandit kontekstual

Saya menggunakan vowpal wabbit untuk menyelesaikan masalah bandit kontekstual . Saya menampilkan iklan kepada pengguna, dan saya memiliki sedikit informasi yang adil tentang konteks di mana iklan ditampilkan (misalnya siapa pengguna, situs apa yang mereka pakai, dll.). Ini tampaknya menjadi masalah bandit kontekstual yang cukup klasik, seperti yang dijelaskan oleh …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Apa Thompson Sampling dalam istilah awam?

Saya tidak dapat memahami Sampling Thompson dan cara kerjanya. Saya membaca tentang Multi Arm Bandit dan setelah membaca Algoritma Batas Keyakinan Atas, banyak teks menyarankan bahwa Thompson Sampling berkinerja lebih baik daripada UCB. Apa itu Thompson Sampling, dalam istilah awam atau sederhana? Jangan ragu untuk memberikan artikel referensi untuk pemahaman …

14 machine-learning definition multiarmed-bandit

1

Algoritma optimal untuk menyelesaikan masalah bandit n-bersenjata?

Saya telah membaca tentang sejumlah algoritma untuk memecahkan masalah bandit n-bersenjata seperti -greedy, softmax, dan UCB1, tapi saya mengalami beberapa masalah memilah pendekatan apa yang terbaik untuk meminimalkan penyesalan.ϵϵ\epsilon Apakah ada algoritma optimal yang diketahui untuk memecahkan masalah bandit n-bersenjata? Apakah ada pilihan algoritma yang tampaknya berkinerja terbaik dalam praktik?

13 machine-learning reinforcement-learning multiarmed-bandit

1

Bandit multi-bersenjata untuk distribusi hadiah umum

Saya sedang mengerjakan masalah bandit multi-bersenjata di mana kami tidak memiliki informasi tentang distribusi hadiah. Saya telah menemukan banyak makalah yang menjamin batas penyesalan untuk distribusi dengan batas yang diketahui, dan untuk distribusi umum dengan dukungan pada [0,1]. Saya ingin mencari tahu apakah ada cara untuk bekerja dengan baik di …

11 references multiarmed-bandit

2

Batas Keyakinan Tertinggi dalam Pembelajaran Mesin

Saya menemukan formula untuk mendapatkan batas kepercayaan atas pada masalah bandit bersenjata k: cdalamNsayansaya-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} di mana adalah jumlah sampel yang kami miliki untuk bandit khusus ini dan adalah jumlah total sampel yang kami miliki dari semua bandit. Algoritma yang sama digunakan dalam Pencarian Pohon Monte Carlo juga untuk mendapatkan …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

Pertanyaan yang diberi tag «multiarmed-bandit»