Makalah yang saya temukan mengklarifikasi sehubungan dengan maksimalisasi-harapan adalah Bayesian K-Means sebagai Algoritma "Maximisasi-Ekspektasi" (pdf) oleh Welling dan Kurihara.
Misalkan kita memiliki model probabilistik dengan pengamatan x , z variabel acak tersembunyi, dan total parameter θ . Kami diberi dataset D dan dipaksa (dengan kekuatan yang lebih tinggi) untuk membuat p ( z , θ | D ) .p(x,z,θ)xzθDp(z,θ|D)
1. Pengambilan sampel Gibbs
Kami dapat memperkirakan dengan sampling. Gibbs sampling memberi p ( z , θ | D ) dengan bergantian:p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Teluk Variasional
Sebagai gantinya, kita dapat mencoba membuat distribusi dan q ( z ) dan meminimalkan perbedaan dengan distribusi kita setelah p ( θ , z | D ) . Perbedaan antara distribusi memiliki nama mewah yang nyaman, KL-divergence. Untuk meminimalkan K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ] kami memperbarui:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Ekspektasi-Maksimalisasi
Untuk datang dengan distribusi probabilitas penuh untuk dan θ mungkin dianggap ekstrim. Mengapa kita tidak mempertimbangkan estimasi titik untuk salah satu dari ini dan menjaga yang lain tetap bagus dan bernuansa. Dalam EM, parameter θ ditetapkan sebagai yang tidak layak untuk distribusi penuh, dan ditetapkan ke nilai MAP (Maksimum A Posteriori), θ ∗ .zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Di sini sebenarnya akan menjadi notasi yang lebih baik: operator argmax dapat mengembalikan beberapa nilai. Tapi jangan sampai nitpick. Dibandingkan dengan variational Bayes Anda melihat bahwa mengoreksi log oleh exp tidak mengubah hasilnya, sehingga tidak perlu lagi.θ∗∈argmaxlogexp
4. Maksimalisasi-Harapan
Tidak ada alasan untuk memperlakukan sebagai anak manja. Kita juga bisa menggunakan estimasi titik z ∗ untuk variabel tersembunyi kami dan memberikan parameter θ kemewahan distribusi penuh.zz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Jika variabel tersembunyi kami adalah variabel indikator, kami tiba-tiba memiliki metode yang murah secara komputasi untuk melakukan inferensi pada jumlah cluster. Dengan kata lain: pemilihan model (atau deteksi relevansi otomatis atau bayangkan nama mewah lain).z
5. Mode bersyarat iterasi
Tentu saja, anak poster inferensi perkiraan adalah dengan menggunakan estimasi titik untuk parameter serta pengamatan z .θz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Untuk melihat bagaimana Maximization-Expectation dimainkan, saya sangat merekomendasikan artikel ini. Namun menurut saya, kekuatan dari artikel ini bukanlah aplikasi untuk alternatif berarti, tetapi penjelasan yang jelas dan ringkas tentang perkiraan ini.k