Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?

15

Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik:

Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal itu, algoritme akan memberitahunya bahwa dia mungkin harus melanjutkan. Jika dia pandai, algoritma akan memberitahunya untuk terus mempelajari bidang itu.

Berkencan juga merupakan bidang yang baik:

Anda seorang pria yang melakukan banyak 'usaha' dalam mengejar seorang wanita. Namun, usaha Anda pasti tidak disukai. Algoritme harus "sedikit" (atau sangat) mendorong Anda untuk melanjutkan.

Untuk situasi kehidupan nyata orang lain apa kita dapat menggunakan algoritma multi-arm bandit?

_{PS: Jika pertanyaannya terlalu luas, silakan tinggalkan komentar. Jika ada konsensus, saya akan menghapus pertanyaan saya.}

algorithms reinforcement-learning multiarmed-bandit

— Andy K
sumber

3

Mengingat bahwa ada 3 jawaban yang dipilih (sejauh ini), saya pikir ini tidak terlalu luas untuk dapat dijawab.

— gung - Reinstate Monica

@ung, saya mendapat lebih banyak upvote dan belum, mereka tidak tercermin pada skor saya. Bagaimana bisa?

— Andy K

5

Itu karena utas ini adalah komunitas wiki (CW), @AndyK. Ketika utas adalah CW, orang tidak mendapatkan reputasi dari upvotes (atau kehilangan itu karena downvotes). Anda akan mendapatkan lencana seperti biasa. Pertanyaan seperti ini yang mengumpulkan daftar barang & di mana tidak ada satu pun, jawaban 'benar' yang jelas seharusnya di luar topik di situs SE. Kompromi kami (saya percaya situs lain juga melakukan ini) adalah untuk memungkinkan pertanyaan seperti itu berdasarkan kasus per kasus, tetapi untuk membuatnya menjadi CW.

— gung - Reinstate Monica

cukup adil @ung

— Andy K

1

penerimaan di perguruan tinggi. Pemilihan metrik untuk pemilihan penerima untuk organ yang disumbangkan.

— EngrStudent

8

Saat Anda memainkan game Pokemon asli (Merah atau Biru dan Kuning) dan Anda tiba di kota Celadon, mesin slot roket Tim memiliki peluang berbeda. Multi-Arm Bandit di sana jika Anda ingin mengoptimalkan mendapatkan Porygon dengan sangat cepat.

Dalam keseriusan semua, orang berbicara tentang masalah dengan memilih variabel tuning dalam pembelajaran mesin. Terutama jika Anda memiliki banyak variabel, eksplorasi vs eksploitasi dibicarakan. Lihat seperti Spearmint atau bahkan makalah baru dalam topik ini yang menggunakan algoritma super sederhana untuk memilih parameter tuning (dan cara mengungguli teknik variabel tuning lainnya)

— www3
sumber

6

Mereka dapat digunakan dalam pengaturan desain penelitian pengobatan / biomedis. Sebagai contoh, saya percaya algoritma q-learning digunakan dalam Sequential, Multiple Assignment, Randomized Trial ( SMART percobaan ). Secara longgar, idenya adalah bahwa rejimen pengobatan beradaptasi secara optimal dengan kemajuan yang dibuat pasien. Jelas bagaimana ini mungkin yang terbaik untuk pasien individu, tetapi juga bisa lebih efisien dalam uji klinis acak.

— gung - Pasang kembali Monica
sumber

Terima kasih @ung. Saya tidak tahu tentang algoritma itu. Saya akan membacanya

— Andy K

6

Mereka digunakan dalam pengujian A / B dari iklan online, di mana iklan yang berbeda ditampilkan kepada pengguna yang berbeda dan berdasarkan hasil keputusan dibuat tentang iklan apa yang akan ditampilkan di masa depan. Ini dijelaskan dalam makalah yang bagus oleh peneliti Google Steven L. Scott .

— Tim
sumber

Terima kasih @Tim. Saya membaca bahwa vwo.com/blog/multi-armed-bandit-algorithm

— Andy K

2

Saya menanyakan pertanyaan yang sama pada Quora

Inilah jawabannya

Alokasi dana untuk berbagai departemen dalam suatu organisasi

Memilih atlet yang berkinerja terbaik dari sekelompok siswa yang diberikan waktu terbatas dan ambang batas pemilihan yang sewenang-wenang

Memaksimalkan penghasilan situs web sekaligus menguji fitur-fitur baru (sebagai pengganti pengujian A / B) Anda dapat menggunakannya kapan saja Anda perlu mengoptimalkan hasil ketika Anda tidak memiliki cukup data untuk membuat model statistik yang ketat.

— Andy K
sumber