Saya akan mencobanya dan saya harap Anda menyukainya! Ada beberapa rumus di bawah ini yang mungkin membuat Anda takut. Saya tidak berharap begitu, karena saya akan melakukan yang terbaik untuk menjelaskannya dengan cara paling sederhana yang saya bisa.
Ini adalah dua formula:
- Kemungkinan: P( r | θ , a , x )
- Dan posterior: P( θ | D )
TL; DR
Thompson Sampling memungkinkan Anda
- Pilih parameter model acak dari semua parameter model yang menurut Anda mungkin.
- Bertindak sekali sesuai dengan parameter model tertentu.
- Amati hadiah yang Anda dapatkan dengan parameter model tertentu.
- Belajarlah dari pengalaman baru ini dan perbarui keyakinan Anda tentang kemungkinan parameter model.
Kemungkinan??
Kemungkinannya adalah sesuatu yang menentukan seberapa besar kemungkinannya . Dalam hal ini kemungkinan mengatakan seberapa besar kemungkinannya kita mendapatkan hadiahr jika bermain aksi Sebuah dalam konteks x. Misalnya, jika hujan (konteks!) Dan Anda mengambil payung (tindakan!) Anda tetap kering (hadiah! :)). Di sisi lain, jika tidak hujan (konteks!) Dan Anda mengambil payung (tindakan!) Anda harus membawa beban ekstra (hadiah negatif! :(). Jadi kemungkinan adalah hal sentral yang ingin Anda pahami. Jika Anda tahu segalanya tentang kemungkinannya, mudah untuk bertindak optimal.
Bagaimana dengan lingkaran aneh itu ??
Seperti yang mungkin Anda perhatikan, saya tidak menulis apa pun tentang lingkaran aneh itu θyang disebut theta. (Matematikawan memiliki kebiasaan menunjukkan bagian mana yang paling sulit dengan memberi mereka huruf Yunani, membuatnya lebih sulit untuk dipahami). Iniθmewakili parameter model. Parameter ini digunakan ketika hubungan antara tindakan + konteks dan hadiah lebih sulit. Sebagai contoh, parameter model mungkin berapa banyak hadiah Anda turun jika hujan 1mm jatuh di atas kepala Anda. Parameter model lain mungkin menyatakan berapa banyak hadiah Anda turun jika Anda membawa payung. Saya hanya mengatakan bahwa kemungkinan adalah hal sentral yang ingin Anda pahami; dan pusat kemungkinan adalah parameter model. Jika Anda tahu parameter modelθ, Anda tahu bagaimana konteks + tindakan terkait dengan hadiah dan mudah untuk bertindak optimal.
Jadi bagaimana kita mengetahui parameter model ini sehingga saya bisa mendapatkan hadiah maksimum ??
Itu adalah pertanyaan penting untuk masalah bandit multi-bersenjata. Sebenarnya, ia memiliki dua bagian. Anda ingin mengetahui parameter model dengan tepat dengan menjelajahi semua jenis tindakan dalam konteks yang berbeda. Tetapi jika Anda sudah tahu tindakan mana yang baik untuk konteks tertentu, Anda ingin mengeksploitasi tindakan itu dan mendapatkan hadiah sebanyak mungkin. Jadi, jika Anda tidak yakin tentang parameter model AndaθAnda mungkin ingin melakukan beberapa eksplorasi tambahan. Jika Anda cukup yakin tentang parameter model kamiθ, Anda juga cukup yakin tindakan mana yang harus diambil. Ini dikenal sebagai trade-off eksplorasi versus eksploitasi.
Anda belum mengatakan apa-apa tentang posterior ini
Kunci dari perilaku optimal ini adalah (tidak) kepastian Anda tentang parameter model θ. Dan posterior mengatakan dengan tepat bahwa: mengingat semua hadiah sebelumnya yang kita dapatkan dari tindakan sebelumnya dalam konteks sebelumnya, seberapa banyak yang Anda ketahui tentangθ. Misalnya, jika Anda belum pernah ke luar, Anda tidak tahu seberapa sedihnya Anda saat hujan turun di kepala. Dengan kata lain, Anda sangat tidak pasti tentang parameter model ketidakbahagiaan saat hujan. Jika kadang-kadang Anda turun hujan, dengan dan tanpa payung, Anda dapat mulai mempelajari sesuatu tentang parameter model yang tidak jelas ini.
Sekarang apa yang Thomson Sampling sarankan untuk lakukan dengan semua ketidakpastian ini ??
Thomson Sampling menyarankan sesuatu yang sangat sederhana: cukup ambil parameter model acak dari posterior Anda, ambil tindakan dan amati apa yang terjadi. Misalnya, ketika Anda belum pernah ke luar sebelumnya, parameter ketidakbahagiaan-kapan-hujan-di-kepala bisa apa saja. Jadi kita pilih saja, kita anggap kita benar-benar tidak bahagia ketika hujan turun di kepala kita. Kami melihat hujan (konteks) jadi kami mengambil payung (tindakan) karena parameter model kami memberi tahu kami bahwa inilah caranya kami bisa mendapatkan hadiah maksimum. Dan memang, Anda mengamati bahwa Anda menjadi sedikit pemarah karena berjalan di tengah hujan dengan payung tetapi tidak benar-benar tidak bahagia. Kita belajar dari ini bahwa hujan + payung itu pemarah. Lain kali hujan Anda memilih lagi keyakinan acak tentang apa yang terjadi ketika hujan turun di kepala Anda. Kali ini mungkin itu tidak mengganggu Anda sama sekali. Namun, begitu Anda setengah jalan ke tujuan, Anda basah kuyup dan Anda tahu bahwa hujan tanpa payung benar-benar buruk. Ini mengurangi ketidakpastian Anda tentang ketidakbahagiaan-ketika-hujan-di-kepala, karena sekarang Anda tahu itu mungkin tinggi.
Ini terdengar sangat sederhana !!
Yap, tidak serumit itu. Bagian yang sulit adalah pengambilan sampel dari parameter model posterior. Mendapatkan dan mempertahankan distribusi di semua parameter model Anda, itu juga sesuai untuk masalah spesifik Anda sulit. Tapi ... itu pasti bisa dilakukan :).