Batasan MCMC / EM? MCMC lebih dari EM?


9

Saat ini saya sedang belajar model Bayesian hierarkis menggunakan JAGS dari R, dan juga pymc menggunakan Python ( "Metode Bayesian untuk Peretas" ).

Saya bisa mendapatkan intuisi dari posting ini : "Anda akan berakhir dengan tumpukan angka yang terlihat" seolah-olah "Anda entah bagaimana berhasil mengambil sampel independen dari distribusi rumit yang ingin Anda ketahui." Itu adalah sesuatu seperti saya dapat memberikan probabilitas bersyarat, maka saya dapat menghasilkan proses tanpa memori berdasarkan pada probabilitas bersyarat. Ketika saya menghasilkan proses yang cukup lama, maka probabilitas gabungan dapat menyatu. Dan kemudian saya bisa mengambil tumpukan angka di akhir urutan yang dihasilkan. Seperti halnya saya mengambil sampel independen dari distribusi sambungan yang rumit. Sebagai contoh, saya dapat membuat histogram dan dapat memperkirakan fungsi distribusi.

Maka masalah saya adalah, apakah saya perlu membuktikan apakah MCMC menyatu untuk model tertentu? Saya termotivasi untuk mengetahui hal ini karena saya sebelumnya belajar algoritma EM untuk GMM dan LDA (model grafis). Jika saya bisa menggunakan algoritma MCMC tanpa membuktikan apakah konvergen, maka dapat menghemat lebih banyak waktu daripada EM. Karena saya harus menghitung fungsi kemungkinan log yang diharapkan (harus menghitung probabilitas posterior), dan kemudian memaksimalkan kemungkinan log yang diharapkan. Ini tampaknya lebih rumit daripada MCMC (saya hanya perlu merumuskan probabilitas bersyarat).

Saya juga bertanya-tanya apakah fungsi kemungkinan dan distribusi sebelumnya adalah konjugat. Apakah itu berarti bahwa MCMC harus bertemu? Saya bertanya-tanya tentang batasan MCMC dan EM.


2
MCMC konvergen sebagai menurut definisi. Daripada membuktikannya, Anda mendiagnosis konvergensi untuk memeriksa apakah model Anda telah terkonvergensi misalnya math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… atau people.fas.harvard.edu/~plam/teaching/methods / convergence / ...n
Tim

3
EM lebih cepat, ini non-Bayesian (tidak semua orang menyukai statistik Bayesian) dan dalam beberapa kasus memiliki lebih sedikit masalah pengidentifikasian (itu konvergen ke nilai maksimum tunggal sementara dengan pendekatan MCMC Anda memiliki seluruh distribusi yang bisa lebih rumit daripada estimasi titik ) dll.
Tim

2
EM digunakan untuk kemungkinan maksimum atau estimasi posteriori maksimum tetapi awalnya digambarkan sebagai algoritma ML dan umumnya digunakan dalam pendekatan ML (lihat en.wikipedia.org/wiki/… ).
Tim

1
Bahkan jika Anda menggunakan EM untuk estimasi MAP daripada ML, itu non-Bayesian bagi saya karena itu mencoba untuk mencirikan distribusi posterior tetapi hanya memberi Anda mode lokal untuk itu.
Luca

1
Bagi saya menggunakan EM adalah non-Bayesian karena memberi Anda perkiraan titik parameter yang Anda minati dan tidak mengukur distribusi posterior penuh. Dengan EM dan MCMC kita dapat memiliki model probabilistik penuh dengan prior, variabel acak terpantau dan diamati tetapi inferensi berbeda. MCMC bertujuan untuk mengkarakterisasi distribusi posterior penuh sementara pemberian EM tidak menyampaikan informasi distribusi posterior penuh. Bagi saya seorang Bayesian adalah seseorang yang menggunakan distribusi posterior untuk pengambilan keputusan. Namun, ini mungkin sederhana. Saya juga mempelajari hal ini.
Luca

Jawaban:


13

EM adalah teknik optimisasi: diberi kemungkinan dengan variabel laten yang berguna, EM mengembalikan maksimum lokal, yang mungkin maksimum global tergantung pada nilai awal.

MCMC adalah metode simulasi: diberikan kemungkinan dengan atau tanpa variabel laten, dan sebelumnya, menghasilkan sampel yang kira-kira didistribusikan dari distribusi posterior. Nilai pertama dari sampel itu biasanya tergantung pada nilai awal, yang berarti mereka sering dibuang sebagai tahap pembakaran (atau pemanasan).

Ketika sampel ini digunakan untuk mengevaluasi integral yang terkait dengan distribusi posterior [mayoritas kasus], sifat konvergensi pada dasarnya sama dengan yang ada pada perkiraan awal Monte Carlo, berdasarkan teorema ergodik.

Jika diperlukan lebih banyak, yaitu jaminan bahwa adalah sampel dari posterior , beberapa teknik penilaian konvergensi tersedia, misalnya dalam paket R CODA . Secara teoritis, alat yang memastikan konvergensi mungkin di luar jangkauan Anda. Misalnya, pengambilan sampel sempurna atau metode rewewal .π ( x | D )(xt,,xt+T)π(x|D)

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.