Mengapa distribusi Dirichlet menjadi prioritas untuk distribusi multinomial?

36

Dalam algoritma model topik LDA, saya melihat asumsi ini. Tapi saya tidak tahu mengapa memilih distribusi Dirichlet? Saya tidak tahu apakah kita bisa menggunakan distribusi Uniform melalui Multinomial sebagai pasangan?

bayesian dirichlet-distribution conjugate-prior

— ColinBinWang
sumber

5

Distribusi seragam adalah kasus khusus dari distribusi balon.

— Stumpy Joe Pete

60

The distribusi Dirichlet adalah konjugasi sebelum untuk distribusi multinomial. Ini berarti bahwa jika distribusi sebelumnya dari parameter multinomial adalah Dirichlet maka distribusi posterior juga merupakan distribusi Dirichlet (dengan parameter yang berbeda dari yang sebelumnya). Manfaat dari hal ini adalah bahwa (a) distribusi posterior mudah untuk dihitung dan (b) dalam beberapa hal dimungkinkan untuk mengukur seberapa banyak kepercayaan kita telah berubah setelah mengumpulkan data.

Dapat dipastikan apakah ini adalah alasan yang baik untuk memilih prior tertentu, karena kriteria ini tidak terkait dengan kepercayaan sebelumnya ... Namun demikian, prior conjugate populer, karena mereka seringkali cukup fleksibel dan nyaman digunakan untuk alasan yang disebutkan di atas. .

Untuk kasus khusus dari distribusi multinomial, misalkan menjadi vektor parameter multinomial (yaitu probabilitas untuk kategori yang berbeda). Jika sebelum mengumpulkan data, maka, berikan pengamatan dalam kategori yang berbeda, $(p_1,\ldots,p_k)$

({hal}_{1}, ..., {hal}_{k}) \sim Dirichlet (α_{1}, ..., α_{k})

$(p_1,\ldots,p_k)\sim \mbox{Dirichlet}(\alpha_1,\ldots,\alpha_k)$

(x_{1}, \dots, x_{k})

$(x_1,\ldots,x_k)$

({hal}_{1}, ..., {hal}_{k}) | (x_{1}, ..., x_{k}) \sim Dirichlet (α_{1} + x_{1}, ..., α_{k} + x_{k}) .

$(p_1,\ldots,p_k)\Big|(x_1,\ldots,x_k)\sim \mbox{Dirichlet}(\alpha_1+x_1,\ldots,\alpha_k+x_k).$

Distribusi seragam sebenarnya adalah kasus khusus dari distribusi Dirichlet, sesuai dengan case . Demikian juga Jeffreys yang paling tidak informatif sebelumnya , yang . Fakta bahwa kelas Dirichlet memasukkan prior "non-informatif" alami ini adalah alasan lain untuk menggunakannya. $\alpha_1=\alpha_2=\cdots=\alpha_k=1$ $\alpha_1=\cdots=\alpha_k=1/2$

— MånsT
sumber

Jadi kami memilih distribusi Dirichlet untuk manfaat itu.

— ColinBinWang

1

+1: Anda mungkin ingin secara eksplisit mengatakan bahwa kemungkinannya adalah Dirichlet, itulah sebabnya distribusi posterior mudah untuk dihitung.

— Neil G

18

Selain daripada bertentangan dengan jawaban Måns T , saya hanya menunjukkan bahwa tidak ada yang namanya "prior" dalam pemodelan Bayesian! Distribusi Dirichlet adalah pilihan yang nyaman karena (a) konjugasi, (b) komputasi, dan (c) koneksi dengan statistik non-parametrik (karena ini adalah versi diskrit dari proses Dirichlet).

Namun, (i) apa pun yang Anda berikan pada bobot multinomial adalah jawaban yang sah pada tingkat subyektif Bayes dan (ii) jika informasi sebelumnya tersedia, tidak ada alasan untuk menyederhanakan distribusi Dirichlet. Perhatikan juga bahwa campuran dan konvolusi dari distribusi Dirichlet dapat digunakan sebagai prior.

— Xi'an
sumber