Saya menggunakan vowpal wabbit untuk menyelesaikan masalah bandit kontekstual . Saya menampilkan iklan kepada pengguna, dan saya memiliki sedikit informasi yang adil tentang konteks di mana iklan ditampilkan (misalnya siapa pengguna, situs apa yang mereka pakai, dll.). Ini tampaknya menjadi masalah bandit kontekstual yang cukup klasik, seperti yang dijelaskan oleh John Langford .
Dalam situasi saya, ada 2 respons utama yang harus dimiliki pengguna terhadap iklan: mengklik (mungkin beberapa kali) atau tidak mengklik. Saya memiliki sekitar 1.000 iklan yang dapat saya pilih. Vowpal Wabbit membutuhkan variabel target dalam bentuk action:cost:probability
untuk setiap konteks. Dalam kasus saya, action
dan probability
mudah dipahami: action
apakah iklan yang saya pilih untuk tayangkan, dan probability
kemungkinan memilih iklan itu mengingat kebijakan saya saat ini untuk menampilkan iklan.
Namun, saya mengalami masalah dengan cara yang baik untuk memetakan pembayaran (klik) ke biaya. Klik jelas baik, dan banyak klik pada iklan yang sama juga lebih baik daripada klik tunggal pada iklan yang sama. Namun, tidak mengklik iklan adalah netral: itu sebenarnya tidak membebani saya apa pun selain kesempatan yang terlewat untuk klik (saya bekerja dalam konteks iklan yang aneh).
Beberapa ide yang saya miliki adalah:
- biaya = -1 * masuk (klik) + 0 * (tidak diklik)
- biaya = -1 * klik + 0 * (tidak diklik)
- biaya = -1 * masuk (klik) + 0,01 * (tidak diklik)
- biaya = -1 * klik + 0,01 * (tidak diklik)
Dalam hal vektor tindakan (0, 1, 5, 0)
biaya dari 4 fungsi ini adalah:
(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)
Jelas ada banyak cara lain untuk menyatakan hal itu clicks=good
dan no clicks=bad.
Secara umum, bagaimana saya harus memodelkan biaya untuk masalah bandit kontekstual dalam vowpal wabbit? Apakah boleh menyatakan manfaat sebagai biaya negatif, atau haruskah saya menskalakan ulang segala sesuatu sehingga semua biaya positif? Apakah boleh jika tindakan yang relatif netral memiliki biaya nol, atau haruskah saya memberi mereka biaya positif kecil untuk mendorong model ke arah tindakan positif?