Pertanyaan yang diberi tag «multiarmed-bandit»


4
Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?
Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik: Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal …

1
Fungsi biaya untuk bandit kontekstual
Saya menggunakan vowpal wabbit untuk menyelesaikan masalah bandit kontekstual . Saya menampilkan iklan kepada pengguna, dan saya memiliki sedikit informasi yang adil tentang konteks di mana iklan ditampilkan (misalnya siapa pengguna, situs apa yang mereka pakai, dll.). Ini tampaknya menjadi masalah bandit kontekstual yang cukup klasik, seperti yang dijelaskan oleh …

2
Apa Thompson Sampling dalam istilah awam?
Saya tidak dapat memahami Sampling Thompson dan cara kerjanya. Saya membaca tentang Multi Arm Bandit dan setelah membaca Algoritma Batas Keyakinan Atas, banyak teks menyarankan bahwa Thompson Sampling berkinerja lebih baik daripada UCB. Apa itu Thompson Sampling, dalam istilah awam atau sederhana? Jangan ragu untuk memberikan artikel referensi untuk pemahaman …

1
Algoritma optimal untuk menyelesaikan masalah bandit n-bersenjata?
Saya telah membaca tentang sejumlah algoritma untuk memecahkan masalah bandit n-bersenjata seperti -greedy, softmax, dan UCB1, tapi saya mengalami beberapa masalah memilah pendekatan apa yang terbaik untuk meminimalkan penyesalan.ϵϵ\epsilon Apakah ada algoritma optimal yang diketahui untuk memecahkan masalah bandit n-bersenjata? Apakah ada pilihan algoritma yang tampaknya berkinerja terbaik dalam praktik?

1
Bandit multi-bersenjata untuk distribusi hadiah umum
Saya sedang mengerjakan masalah bandit multi-bersenjata di mana kami tidak memiliki informasi tentang distribusi hadiah. Saya telah menemukan banyak makalah yang menjamin batas penyesalan untuk distribusi dengan batas yang diketahui, dan untuk distribusi umum dengan dukungan pada [0,1]. Saya ingin mencari tahu apakah ada cara untuk bekerja dengan baik di …

2
Batas Keyakinan Tertinggi dalam Pembelajaran Mesin
Saya menemukan formula untuk mendapatkan batas kepercayaan atas pada masalah bandit bersenjata k: cdalamNsayansaya-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} di mana adalah jumlah sampel yang kami miliki untuk bandit khusus ini dan adalah jumlah total sampel yang kami miliki dari semua bandit. Algoritma yang sama digunakan dalam Pencarian Pohon Monte Carlo juga untuk mendapatkan …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.