Hubungan antara variational Bayes dan EM

Saya membaca di suatu tempat bahwa metode Variational Bayes adalah generalisasi dari algoritma EM. Memang, bagian berulang dari algoritma sangat mirip. Untuk menguji apakah algoritma EM adalah versi khusus dari Variational Bayes, saya mencoba yang berikut:

$Y$ adalah data, adalah kumpulan variabel laten dan adalah parameternya. Dalam Variational Bayes yang kita buat dapat membuat perkiraan sedemikian rupa sehingga . Di mana adalah distribusi yang lebih sederhana dan dapat ditelusuri. $X$ $\Theta$ $P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)$ $Q$
Karena algoritma EM menemukan perkiraan titik MAP, saya pikir Variational Bayes dapat menyatu dengan EM jika saya menggunakan Fungsi Delta sehingga: . adalah taksiran pertama untuk parameter seperti yang biasanya dilakukan dalam EM. $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ $\Theta_1$
Ketika diberikan, yang meminimalkan KL Divergence ditemukan dengan rumus Rumus di atas disederhanakan menjadi , langkah ini ternyata setara dengan langkah Ekspektasi dari algoritma EM! $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ $Q^1_X(X)$
$Q_{X}^{1} (X) = \frac{\exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)])}{\int \exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)]) d X}$ $Q^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}$ $Q^1_X(X)=P(X|\Theta^1,Y)$

Tapi saya tidak bisa mendapatkan langkah Maksimalisasi sebagai kelanjutan dari ini. Pada langkah berikutnya kita perlu menghitung dan menurut aturan iterasi Variational Bayes ini adalah: $Q^2_\Theta(\Theta)$

Q_{Θ}^{2} (Θ) = \frac{\exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)])}{\int \exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)]) d Θ}

$Q^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta}$

Apakah algoritma VB dan EM benar-benar terhubung dengan cara ini? Bagaimana kita dapat memperoleh EM sebagai kasus khusus di Variational Bayes, apakah pendekatan saya benar?

bayesian expectation-maximization variational-bayes

— Ufuk Can Bicici
sumber

Di mana Anda membaca bahwa algoritma EM menemukan perkiraan MAP? Hubungan antara inferensi variasional dan EM akan menjadi jelas setelah Anda memahami pandangan EM yang disajikan dalam makalah ini oleh Neal & Hinton (1998) . Lihat juga jawaban saya di sini .

— Lucas

Saya pikir saya mempelajari algoritma EM dengan cara yang sama seperti makalah ini menjelaskan, itu dipandang sebagai masalah maksimalisasi batas bawah. Menggunakan persamaan Jensen dan Kalkulus variasi, orang menemukan bahwa dalam langkah ekspektasi, adalah distribusi yang memaksimalkan batas bawah untuk dan pada langkah maksimisasi, seseorang menemukan , yang merupakan maksimum pada batas bawah. Jadi, ini mirip dengan Variational Bayes. (Dan itu konvergen ke maksimum lokal dari posterior marginal, maka perkiraan MAP)

P (X | Θ^{t}, Y)

$P(X|\Theta^t,Y)$

Θ^{t}

$\Theta^t$

Θ^{t + 1} = a r g m a x_{Θ} < \ln P (X, Y, Θ) >_{P (X | Θ^{t}, Y)}

$\Theta^{t+1} = arg max_{\Theta} <\ln P(X,Y,\Theta)>_{P(X|\Theta^t,Y)}$

— Ufuk Can Bicici

Maaf, saya tidak cukup membaca pertanyaan Anda. Saya percaya langkah maksimisasi Anda untuk menghitung hanya valid jika Anda mengizinkan distribusi apa pun, yaitu, jika Anda hanya membuat asumsi faktorisasi. Tetapi Anda juga mengasumsikan bahwa adalah distribusi delta. Cobalah untuk secara eksplisit memaksimalkan batas bawah sehubungan dengan , parameter .

Q_{Θ}^{2}

$Q_\Theta^2$

Q_{Θ}^{2}

$Q_\Theta^2$

Θ^{2}

$\Theta^2$

Q_{Θ}^{2} (Θ) = δ_{Θ^{2}} (Θ)

$Q_\Theta^2(\Theta) = \delta_{\Theta^2}(\Theta)$

— Lucas

Saya menemukan di halaman 21 dari presentasi cs.cmu.edu/~tom/10-702/Zoubin-702.pdf perbandingan EM dan VB telah ditunjukkan, sama halnya dengan menggunakan fungsi Dirac. Tetapi bagaimana VB mengurangi menjadi EM tidak diberikan.

— Ufuk Can Bicici

Pendekatan Anda benar. EM setara dengan VB di bawah batasan bahwa perkiraan posterior untuk dibatasi menjadi massa titik. (Ini disebutkan tanpa bukti pada halaman 337 dari Analisis Data Bayesian .) Biarkan menjadi lokasi yang tidak diketahui dari massa titik ini: VB akan meminimalkan perbedaan-KL berikut: Minimum over memberikan E-step EM, dan minimum over memberikan M-step EM. $\Theta$ $\Theta^*$

Q_{Θ} (Θ) = δ (Θ - Θ^{*})

$Q_\Theta(\Theta) = \delta(\Theta - \Theta^*)$

K L (Q | | P) = \int \int Q_{X} (X) Q_{Θ} (Θ) \ln \frac{Q_{X} (X) Q_{Θ} (Θ)}{P (X, Y, Θ)} d X d Θ = \int Q_{X} (X) \ln \frac{Q_{X} (X) Q_{Θ} (Θ^{*})}{P (X, Y, Θ^{*})} d X

$KL(Q||P)=\int \int Q_X(X) Q_\Theta(\Theta) \ln \frac{Q_X(X) Q_\Theta(\Theta)}{P(X,Y,\Theta)} dX d\Theta \\ = \int Q_X(X) \ln \frac{Q_X(X) Q_\Theta(\Theta^*)}{P(X,Y,\Theta^*)} dX$

Q_{X} (X)

$Q_X(X)$

Θ^{*}

$\Theta^*$

Tentu saja, jika Anda benar-benar mengevaluasi perbedaan KL, itu akan menjadi tidak terbatas. Tapi itu bukan masalah jika Anda menganggap fungsi delta sebagai batas.

— Tom Minka
sumber

Secara teknis, memaksimalkan wrt sesuai dengan langkah-M dari MAP-EM (dengan sebelumnya ). - bagian 3.1 dari makalah VBEM

E_{Q_{x}} [\ln P (X, Y, Θ^{*})] = E_{Q_{x}} [\ln P (X, Y | Θ^{*})] + \ln P (Θ^{*})

$\mathbb{E}_{Q_x}[\ln P(X, Y, \Theta^*)] = \mathbb{E}_{Q_x}[\ln P(X, Y | \Theta^*)] + \ln P(\Theta^*)$

Θ^{*}

$\Theta^*$

P (Θ^{*})

$P(\Theta^*)$

— Yibo Yang