Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?


15

Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik:

Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal itu, algoritme akan memberitahunya bahwa dia mungkin harus melanjutkan. Jika dia pandai, algoritma akan memberitahunya untuk terus mempelajari bidang itu.

Berkencan juga merupakan bidang yang baik:

Anda seorang pria yang melakukan banyak 'usaha' dalam mengejar seorang wanita. Namun, usaha Anda pasti tidak disukai. Algoritme harus "sedikit" (atau sangat) mendorong Anda untuk melanjutkan.

Untuk situasi kehidupan nyata orang lain apa kita dapat menggunakan algoritma multi-arm bandit?

PS: Jika pertanyaannya terlalu luas, silakan tinggalkan komentar. Jika ada konsensus, saya akan menghapus pertanyaan saya.


3
Mengingat bahwa ada 3 jawaban yang dipilih (sejauh ini), saya pikir ini tidak terlalu luas untuk dapat dijawab.
gung - Reinstate Monica

@ung, saya mendapat lebih banyak upvote dan belum, mereka tidak tercermin pada skor saya. Bagaimana bisa?
Andy K

5
Itu karena utas ini adalah komunitas wiki (CW), @AndyK. Ketika utas adalah CW, orang tidak mendapatkan reputasi dari upvotes (atau kehilangan itu karena downvotes). Anda akan mendapatkan lencana seperti biasa. Pertanyaan seperti ini yang mengumpulkan daftar barang & di mana tidak ada satu pun, jawaban 'benar' yang jelas seharusnya di luar topik di situs SE. Kompromi kami (saya percaya situs lain juga melakukan ini) adalah untuk memungkinkan pertanyaan seperti itu berdasarkan kasus per kasus, tetapi untuk membuatnya menjadi CW.
gung - Reinstate Monica

cukup adil @ung
Andy K

1
penerimaan di perguruan tinggi. Pemilihan metrik untuk pemilihan penerima untuk organ yang disumbangkan.
EngrStudent

Jawaban:


8

Saat Anda memainkan game Pokemon asli (Merah atau Biru dan Kuning) dan Anda tiba di kota Celadon, mesin slot roket Tim memiliki peluang berbeda. Multi-Arm Bandit di sana jika Anda ingin mengoptimalkan mendapatkan Porygon dengan sangat cepat.

Dalam keseriusan semua, orang berbicara tentang masalah dengan memilih variabel tuning dalam pembelajaran mesin. Terutama jika Anda memiliki banyak variabel, eksplorasi vs eksploitasi dibicarakan. Lihat seperti Spearmint atau bahkan makalah baru dalam topik ini yang menggunakan algoritma super sederhana untuk memilih parameter tuning (dan cara mengungguli teknik variabel tuning lainnya)


6

Mereka dapat digunakan dalam pengaturan desain penelitian pengobatan / biomedis. Sebagai contoh, saya percaya algoritma q-learning digunakan dalam Sequential, Multiple Assignment, Randomized Trial ( SMART percobaan ). Secara longgar, idenya adalah bahwa rejimen pengobatan beradaptasi secara optimal dengan kemajuan yang dibuat pasien. Jelas bagaimana ini mungkin yang terbaik untuk pasien individu, tetapi juga bisa lebih efisien dalam uji klinis acak.


Terima kasih @ung. Saya tidak tahu tentang algoritma itu. Saya akan membacanya
Andy K


2

Saya menanyakan pertanyaan yang sama pada Quora

Inilah jawabannya

  • Alokasi dana untuk berbagai departemen dalam suatu organisasi

  • Memilih atlet yang berkinerja terbaik dari sekelompok siswa yang diberikan waktu terbatas dan ambang batas pemilihan yang sewenang-wenang

  • Memaksimalkan penghasilan situs web sekaligus menguji fitur-fitur baru (sebagai pengganti pengujian A / B) Anda dapat menggunakannya kapan saja Anda perlu mengoptimalkan hasil ketika Anda tidak memiliki cukup data untuk membuat model statistik yang ketat.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.