Model Bayesian Hirarki (?)

12

Mohon maaf, pemotongan istilah statistik saya :) Saya telah menemukan beberapa pertanyaan di sini yang terkait dengan iklan dan tarif klik. Tetapi tidak satu pun dari mereka yang sangat membantu saya dengan pemahaman saya tentang situasi hierarkis saya.

Ada pertanyaan terkait Apakah representasi setara model Bayesian hierarkis yang sama? , tapi saya tidak yakin apakah mereka benar-benar memiliki masalah yang sama. Pertanyaan lain Priors untuk model binomial Bayesian hierarkis merinci tentang hyperpriors, tapi saya tidak dapat memetakan solusi mereka untuk masalah saya

Saya memiliki beberapa iklan online untuk produk baru. Saya membiarkan iklan berjalan selama beberapa hari. Pada saat itu cukup banyak orang telah mengklik iklan untuk melihat mana yang mendapat klik terbanyak. Setelah mengeluarkan semua kecuali yang memiliki klik terbanyak, saya membiarkannya berjalan selama beberapa hari untuk melihat berapa banyak orang yang benar-benar membeli setelah mengklik iklan. Pada titik itu saya tahu apakah itu ide yang baik untuk menjalankan iklan di tempat pertama.

Statistik saya sangat bising karena saya tidak punya banyak data karena saya hanya menjual beberapa barang setiap hari. Karenanya sangat sulit untuk memperkirakan berapa banyak orang yang membeli sesuatu setelah melihat iklan. Hanya sekitar satu dari setiap 150 klik yang menghasilkan pembelian.

Secara umum, saya perlu tahu apakah saya kehilangan uang untuk setiap iklan sesegera mungkin dengan merapikan statistik per-grup iklan dengan statistik global atas semua iklan.

Jika saya menunggu sampai setiap iklan telah melihat pembelian yang cukup, saya akan bangkrut karena terlalu lama: menguji 10 iklan saya perlu menghabiskan 10 kali lebih banyak uang sehingga statistik untuk setiap iklan menjadi cukup andal. Pada saat itu saya mungkin kehilangan uang.
Jika saya membeli rata-rata semua iklan, saya tidak akan dapat menendang iklan yang tidak berfungsi dengan baik.

Bisakah saya menggunakan tingkat pembelian global ( sub-distribusi N $? Itu berarti bahwa semakin banyak data yang saya miliki untuk setiap iklan, semakin independen statistik untuk iklan itu. Jika belum ada yang mengklik iklan, saya berasumsi bahwa rata-rata global sesuai. $per click) and use it as a prior for$

Distribusi mana yang akan saya pilih untuk itu?

Jika saya memiliki 20 klik pada A dan 4 klik pada B, bagaimana saya bisa memodelkan itu? Sejauh ini saya telah menemukan bahwa distribusi binomial atau Poisson mungkin masuk akal di sini:

purchase_rate ~ poisson (?)
(purchase_rate | group A) ~ poisson (perkirakan tingkat pembelian hanya untuk grup A?)

Tapi apa yang saya lakukan selanjutnya untuk benar - benar menghitung purchase_rate | group A. Bagaimana cara menyambungkan dua distribusi bersama agar masuk akal untuk grup A (atau grup lain).

Apakah saya harus mencocokkan model terlebih dahulu? Saya memiliki data yang dapat saya gunakan untuk "melatih" model:

Iklan A: 352 klik, 5 pembelian
Iklan B: 15 klik, 0 pembelian
Iklan C: 3519 klik, 130 pembelian

Saya mencari cara untuk memperkirakan kemungkinan salah satu dari kelompok. Jika sebuah grup hanya memiliki beberapa titik data, pada dasarnya saya ingin kembali ke rata-rata global. Saya tahu sedikit tentang statistik Bayesian dan telah membaca banyak PDF dari orang yang menjelaskan bagaimana mereka memodelkan menggunakan inferensi Bayesian dan konjugasi prior dan sebagainya. Saya pikir ada cara untuk melakukan ini dengan benar, tetapi saya tidak tahu bagaimana memodelkannya dengan benar.

Saya akan sangat senang dengan petunjuk yang membantu saya merumuskan masalah saya dengan cara Bayesian. Itu akan banyak membantu dengan menemukan contoh online yang dapat saya gunakan untuk benar-benar menerapkan ini.

Memperbarui:

Terima kasih banyak atas tanggapannya. Saya mulai mengerti sedikit dan lebih banyak tentang masalah saya. Terima kasih! Izinkan saya mengajukan beberapa pertanyaan untuk melihat apakah saya memahami masalahnya sedikit lebih baik sekarang:

Jadi saya menganggap konversi didistribusikan sebagai Beta-distribusi, dan distribusi Beta memiliki dua parameter, dan . $a$ $b$

The parameter yang hyperparameters, sehingga mereka parameter untuk sebelum? Jadi pada akhirnya saya menetapkan jumlah konversi dan jumlah klik sebagai parameter distribusi Beta saya? $\frac{1}{2}$ $\frac{1}{2}$

Pada suatu saat ketika saya ingin membandingkan iklan yang berbeda, jadi saya akan menghitung . Bagaimana cara saya menghitung setiap bagian dari formula itu? $P(\mathrm{conversion} | \mathrm{ad}=X) = \frac{P(\mathrm{ad}=X | \mathrm{conversion}) * P(\mathrm{conversion})}{P(\mathrm{ad}=X)}$

Saya pikir disebut likelihood, atau "mode" dari distribusi Beta. Jadi itulah , dengan dan menjadi parameter distribusi saya. Tetapi spesifik dan sini adalah parameter untuk distribusi hanya untuk iklan , kan? Jika demikian, apakah hanya jumlah klik dan konversi yang dilihat iklan ini? Atau berapa banyak klik / konversi semua iklan telah melihat? $P(\mathrm{ad}=X | \mathrm{conversion})$ $\frac{\alpha - 1}{\alpha + \beta - 2}$ $\alpha$ $\beta$ $\alpha$ $\beta$ $X$
Lalu saya gandakan dengan prior, yaitu P (konversi), yang dalam kasus saya hanya Jeffrey sebelumnya, yang tidak informatif. Apakah sebelumnya tetap sama dengan saya mendapatkan lebih banyak data?
Saya membagi dengan , yang merupakan kemungkinan marjinal, jadi saya menghitung seberapa sering iklan ini diklik? $P(\mathrm{ad})$

Dalam menggunakan Jeffreys sebelumnya, saya berasumsi bahwa saya mulai dari nol dan tidak tahu apa-apa tentang data saya. Sebelumnya itu disebut "non-informatif". Ketika saya terus belajar tentang data saya, apakah saya memperbarui sebelumnya?

Ketika klik dan konversi masuk, saya telah membaca bahwa saya harus "memperbarui" distribusi saya. Apakah ini berarti, bahwa parameter distribusi saya berubah, atau bahwa perubahan sebelumnya? Ketika saya mendapatkan klik untuk iklan X, apakah saya memperbarui lebih dari satu distribusi? Lebih dari satu sebelumnya?

bayesian binomial multilevel-analysis

— Mika Tiihonen
sumber

9

Ketika Anda intuited, cara yang sangat umum untuk menjawab pertanyaan Anda adalah dengan membangun model Bayesian hirarki (multilevel). Model ini memiliki tiga bagian, seperti diilustrasikan di bawah ini.

Model

Model Bayesian hierarki untuk tingkat konversi iklan

$\mathcal{N}(\mu \mid \mu_0, \eta_0)$ $\mu$ $\textrm{Ga}(\lambda \mid a_0, b_0)$ $\mu_0 = 0, \eta_0 = 0.1, a_0 = 1, b_0 = 1$
$\pi_j$ $j$ $j$ $\rho_j := \textrm{logit}(\pi_j)$ $\mathcal{N}(\rho_j \mid \mu,\lambda)$
$k_j$ $j$ $\textrm{Bin}(k_j \mid \sigma(\rho_j), n_j)$ $\sigma(\rho_j)$ $n_j$ $j$

Data

Sebagai contoh, mari kita ambil data yang Anda posting di pertanyaan awal Anda,

Iklan A: 352 klik, 5 pembelian

Iklan B: 15 klik, 0 pembelian

Iklan C: 3519 klik, 130 pembelian

$n_1 = 352, k_1 = 5, n_2 = 15, k_2 = 0, \ldots$

Kesimpulan

Melawan model ini berarti mendapatkan distribusi posterior untuk parameter model kami. Di sini, saya menggunakan pendekatan variasional Bayes untuk model inversi, yang secara komputasi lebih efisien daripada skema pengambilan sampel stokastik seperti MCMC. Saya telah merencanakan hasilnya di bawah ini.

Data dan posisi yang dihasilkan

Angka tersebut menunjukkan tiga panel. (A) Visualisasi sederhana dari contoh data yang Anda berikan. Bilah abu-abu mewakili jumlah klik, bilah hitam menunjukkan jumlah konversi. (B) Distribusi posterior yang dihasilkan atas populasi berarti tingkat konversi. Saat kami mengamati lebih banyak data, ini akan menjadi lebih dan lebih tepat. (c) Interval probabilitas posterior pusat 95% (atau interval kredibel) dari tingkat konversi posterior spesifik iklan.

Panel terakhir menggambarkan dua fitur utama dari pendekatan Bayesian untuk pemodelan hierarkis. Pertama, ketepatan posisi mencerminkan jumlah titik data yang mendasarinya. Misalnya, kami memiliki poin data yang relatif banyak untuk iklan C; dengan demikian, posteriornya jauh lebih tepat daripada posisi iklan lainnya.

Kedua, kesimpulan khusus iklan diinformasikan oleh pengetahuan tentang populasi. Dengan kata lain, posisi khusus iklan didasarkan pada data dari seluruh kelompok, efek yang dikenal sebagai penyusutan populasi . Misalnya, mode posterior (lingkaran hitam) dari iklan A jauh lebih tinggi daripada tingkat konversi empirisnya (biru). Ini karena semua iklan lain memiliki mode posterior yang lebih tinggi, dan dengan demikian kami dapat memperoleh estimasi kebenaran tanah yang lebih baik dengan menginformasikan perkiraan khusus iklan kami dengan rata-rata grup. Semakin sedikit data yang kami miliki tentang iklan tertentu, semakin besar posteriornya akan dipengaruhi oleh data dari iklan lain.

Semua ide yang Anda jelaskan dalam pertanyaan awal Anda dicapai secara alami dalam model di atas, menggambarkan kegunaan praktis pengaturan Bayesian sepenuhnya.

— Kay Brodersen
sumber

Kay, terima kasih atas jawaban terinci Anda. Saya mengerti jawabannya sedikit bertanggal tetapi apakah Anda keberatan membagikan kode yang menyertainya jika Anda menyimpannya? Saya mencoba mempelajari Hierarchical Bayesian Modelling tetapi berjuang untuk menemukan contoh intuitif dalam R.

— Zhubarb

@Kay, terima kasih atas jawaban yang menarik, dapatkah Anda menambahkan beberapa referensi ke model Bayesian hierarkis? Terima kasih!

— user511005

1

Hai @ Zhubarb, user511005, di sini ada tautan ke makalah yang menjelaskan model di atas: sciencedirect.com/science/article/pii/S1053811913002371 Saya telah mengumpulkan pengantar singkat untuk inferensi variasional di sini: people.inf.ethz.ch/ bkay / pembicaraan / Brodersen_2013_03_22.pdf

— Kay Brodersen

2

$p$

$p$ $a$ $a'$ $b$ $b'$

$a'$ $b'$ $(\frac12, \frac12)$ $a', b'$

$p$ $a, b$

Sebagai jawaban untuk suntingan Anda:

$p$ $a$ $b$ $p$ $p$ $a$ $b$

Pembaruan Bayesian adalah

P (p ∣ x) \propto P (p) P (x ∣ p)

$P(p \mid x) \propto P(p)P(x \mid p)$

$x$ $p$ $a$ $b$ $a$ $b$ $p$

Sebelumnya The Jeffrey tidak sama dengan yang sebelumnya tidak informatif, tapi saya percaya itu lebih baik kecuali Anda memiliki alasan yang baik untuk menggunakannya. Jangan ragu untuk mengajukan pertanyaan lain jika Anda ingin memulai diskusi tentang itu.

— Neil G
sumber

Terima kasih telah merespons! Saya memperbarui pertanyaan asli saya karena saya kehabisan karakter di kotak komentar ini. Akan sangat bagus jika Anda bisa memberikan umpan balik untuk beberapa detail yang saya tulis di pembaruan.

— Mika Tiihonen