Model Multinomial-Dirichlet dengan distribusi hyperprior pada parameter konsentrasi

10

Saya akan mencoba menggambarkan masalah yang dihadapi secara umum. Saya memodelkan pengamatan sebagai distribusi kategoris dengan parameter probabilitas vektor theta.

Kemudian, saya berasumsi vektor parameter theta mengikuti Dirichlet prior distribution dengan parameter . $\alpha_1,\alpha_2,\ldots,\alpha_k$

Apakah mungkin juga untuk memaksakan distribusi hyperprior ke parameter ? Apakah itu harus menjadi distribusi multivariat seperti distribusi kategoris dan dirichlet? Menurut saya alfa selalu positif sehingga hyperprior gamma harus bekerja. $\alpha_1,\alpha_2,\ldots,\alpha_k$

Tidak yakin apakah ada yang mencoba memasang model yang terlalu (mungkin) terlalu standar tetapi tampaknya masuk akal bagi saya untuk berpikir bahwa alfa tidak boleh diperbaiki tetapi lebih berasal dari distribusi gamma.

Silakan coba berikan saya beberapa referensi, wawasan tentang bagaimana saya bisa mencoba pendekatan semacam itu dalam praktik.

— Dnaiel
sumber

Ya, ini mungkin dan sudah dilakukan. Secara umum ini disebut model hirarki Bayesian. Lebih disukai, prior ini harus memperhitungkan kemungkinan dependensi.

@Prastrastator terima kasih. apakah Anda memiliki beberapa referensi untuk model hierarki Bayesian yang baik dalam menangani model semacam ini? Terima kasih.

— Dnaiel

@Procrastinator: Sudahkah Anda mengatur untuk mendapatkan dokumen / laporan atau idealnya menyerahkan dokumen aplikasi mengenai Bayesian Hierarchical Models?

— Zhubarb

12

Saya tidak berpikir ini adalah model "overparamaterized" sama sekali. Saya berpendapat bahwa dengan menempatkan prior pada paramaters Dirichlet, Anda menjadi kurang berkomitmen tentang hasil tertentu. Secara khusus, karena Anda mungkin tahu, untuk distribusi Dirichlet simetris (yaitu ) menetapkan memberikan probabilitas lebih sebelum distribusi multinomial jarang, sedangkan memberikan probabilitas lebih sebelum halus multinomial distribusi. $\alpha_1 = \alpha_2 = ... \alpha_K$ $\alpha<1$ $\alpha>1$

Dalam kasus di mana seseorang tidak memiliki harapan kuat untuk distribusi multinom yang jarang atau padat, menempatkan hyperprior di atas distribusi Dirichlet Anda memberi model Anda beberapa fleksibilitas tambahan untuk memilih di antara mereka.

Saya awalnya mendapat ide untuk melakukan ini dari makalah ini . Hyperprior yang mereka gunakan sedikit berbeda dari yang Anda sarankan. Mereka sampel vektor probabilitas dari balon dan kemudian skala dengan menggambar dari eksponensial (atau gamma). Jadi modelnya adalah

\begin{array}{rcl} β & \sim & D i r i c h l e t (1) \\ λ & \sim & E x p o n e n t i a l (\cdot) \\ θ & \sim & D i r i c h l e t (β λ) \end{array}

$\begin{eqnarray} \beta &\sim &Dirichlet(1)\\ \lambda& \sim &Exponential(\cdot)\\ \theta& \sim &Dirichlet(\beta\lambda) \end{eqnarray}$

Dirichlet ekstra hanya untuk menghindari memaksakan simetri.

Saya juga melihat orang menggunakan hiper Gamma sebelumnya untuk Dirichlet dalam konteks model markov tersembunyi dengan distribusi emisi multinomial, tapi sepertinya saya tidak dapat menemukan referensi. Juga, sepertinya saya mengalami hiper serupa yang digunakan dalam model topik.

— jerad
sumber

Terima kasih jawaban yang bagus! Saya punya satu tindak lanjut pendek Q, akankah model ini memungkinkan variabilitas yang berbeda untuk masing-masing thetas? Saya punya pertanyaan ini karena parameter lambda dibagi di semua thetas, oleh karena itu mereka semua berbagi parameter skala yang sama jadi saya bertanya-tanya dalam kasus overdispersi model akan memberikan fleksibilitas seperti itu. Intuisi / pengetahuan Anda di sini sangat dihargai! Terima kasih!

— Dnaiel

D i r i c h l e t (0.2, 0.2, 0.2, 0.2)

$Dirichlet(0.2, 0.2, 0.2, 0.2)$

θ

$\theta$

θ

$\theta$

β

$\beta$

4

Untuk menunjukkan solusi untuk masalah hyperprior ini, saya menerapkan gamma hirarki-Dirichlet-multinomial di PyMC3. Gamma sebelum untuk Dirichlet ditentukan dan disampel per posting blog Ted Dunning .

Model yang saya terapkan dapat ditemukan di Intisari ini tetapi juga dijelaskan di bawah ini:

Ini adalah model hierarki (penggabungan) Bayesian untuk peringkat film. Setiap film dapat diberi peringkat pada skala dari nol hingga lima. Setiap film dinilai beberapa kali. Kami ingin menemukan distribusi peringkat yang diperhalus untuk setiap film.

Kita akan belajar distribusi tingkat atas sebelumnya (hyperprior) pada peringkat film dari data. Setiap film kemudian akan memiliki film sebelumnya yang dihaluskan oleh film tingkat atas ini sebelumnya. Cara lain untuk berpikir tentang hal ini adalah bahwa peringkat sebelum untuk setiap film akan menyusut menuju distribusi tingkat grup, atau dikumpulkan.

Jika sebuah film memiliki distribusi peringkat yang tidak lazim, pendekatan ini akan mengecilkan peringkat menjadi sesuatu yang lebih sesuai dengan apa yang diharapkan. Lebih lanjut, ini dipelajari sebelumnya dapat berguna untuk bootstrap film dengan beberapa peringkat untuk memungkinkan mereka menjadi bermakna dibandingkan dengan film dengan banyak peringkat.

Modelnya adalah sebagai berikut:

$\gamma_{k=1...K} \sim Gamma(\alpha, \beta)$

$\theta_{m=1...M} \sim Dirichlet_M(c\gamma_1, ..., c\gamma_K)$

$z_{m=1...M,n=1...N_m} \sim Categorical_M(\theta_m)$

dimana:

$K$ $K = 6$
$M$
$N_m$ $m$
$\alpha = 1 / K$
$\beta$
$c$
$\gamma_k$ $k$
$\theta_m$ $K$
$z_{mn}$ $n$ $m$

— Brad B
sumber

1

Ini adalah pemodelan konjugat Bayesian langsung sebelumnya. Perpanjangan alami dari model Beta-Binomial. Sumber yang bagus untuk ini bisa dari buku . Dan Posterior juga Dirichlet dan karenanya mensimulasikan dari dirichlet akan memberikan ringkasan yang diperlukan

— Subbiah
sumber

1

Terima kasih. Saya kenal dengan buku seperti itu, referensi yang bagus. Saya mencoba mencarinya tetapi mereka tidak menyediakan model hierarki multinomial secara langsung, tetapi mereka memiliki banyak ide bagus yang dapat diterapkan.

— Dnaiel

1

Dirichlet-multinomial adalah model konjugat, tetapi op menanyakan tentang (hyper-) sebelum parameter Dirichlet. Tidak ada konjugasi standar sebelum distribusi Dirichlet, meskipun orang harus benar -benar ada , karena itu adalah anggota keluarga eksponensial.

— jerad