Mengapa algoritma Expectation Maximization dijamin untuk menyatu ke optimal lokal?


24

Saya telah membaca beberapa penjelasan tentang algoritma EM (misalnya dari Pengenalan Pola Bishop dan Pembelajaran Mesin dan dari Kursus Pertama Roger dan Gerolami tentang Pembelajaran Mesin). Derivasi EM itu ok, saya mengerti. Saya juga mengerti mengapa algoritma menutupi sesuatu: pada setiap langkah kita meningkatkan hasil dan kemungkinan dibatasi oleh 1.0, jadi dengan menggunakan fakta sederhana (jika suatu fungsi bertambah dan dibatasi maka konvergen) kita tahu bahwa algoritma konvergen ke beberapa solusi.

Namun, bagaimana kita tahu itu minimum lokal? Pada setiap langkah, kami hanya mempertimbangkan satu koordinat (baik variabel laten atau parameter), jadi kami mungkin kehilangan sesuatu, seperti minimum lokal yang mengharuskan pemindahan dengan kedua koordinat sekaligus.

Ini saya percaya adalah masalah yang mirip dengan kelas umum dari algoritma mendaki bukit, yang merupakan contoh EM. Jadi untuk algoritma pendakian bukit umum kita memiliki masalah ini untuk fungsi f (x, y) = x * y. Jika kita mulai dari titik (0, 0), maka hanya dengan mempertimbangkan kedua arah sekaligus kita dapat bergerak ke atas dari nilai 0.


3
Kemungkinan dibatasi hanya untuk varian tetap. Artinya, dalam situasi binomial, variansnya adalahp(1p) ; atau dalam situasi Gaussian, jika varians diasumsikan diketahui. Jika varians tidak diketahui, dan harus diperkirakan, kemungkinan tidak dibatasi. Juga, dalam algoritma EM, ada pemisahan generik dari parameter yang hilang dan, setidaknya untuk statistik sering, tetapi permukaan memang mungkin memiliki pelana.
Tugas

@Stask Saya tidak yakin bahwa kemungkinan umumnya dibatasi bahkan dengan varian tetap. Apakah Anda membatasi keluarga tertentu?
Glen_b -Reinstate Monica

Jawaban:



13

Pertama-tama, adalah mungkin bahwa EM konvergen ke min lokal , sebuah max lokal , atau titik pelana dari fungsi kemungkinan. Lebih tepatnya, seperti yang ditunjukkan Tom Minka , EM dijamin untuk menyatu ke titik dengan gradien nol .

Saya dapat memikirkan dua cara untuk melihat ini; pandangan pertama adalah intuisi murni, dan pandangan kedua adalah sketsa bukti formal. Pertama, saya akan menjelaskan secara singkat bagaimana EM bekerja:

tbt(θ)L(θ)θt=argmaxθbt(θ)

Maksimalisasi Ekspektasi sebagai kenaikan gradien

Dalam setiap iterasi , EM mensyaratkan bahwa terikat menyentuh fungsi likelihood pada solusi iterasi sebelumnya yaitu yang menyiratkan gradien mereka juga sama; itu adalah . Jadi, EM setidaknya sama baiknya dengan kenaikan gradien karena setidaknya sama baiknya dengan . Dengan kata lain:tbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

jika EM konvergen ke maka juga merupakan titik konvergen untuk kenaikan gradien dan EM memenuhi setiap properti yang dibagi di antara solusi kenaikan gradien (termasuk nilai gradien nol).θθ

Sketsa bukti formal

Satu dapat menunjukkan bahwa kesenjangan antara batas dan fungsi kemungkinan menyatu menjadi nol; itu adalah Seseorang dapat membuktikan bahwa gradien dari ikatan juga menyatu dengan gradien fungsi likelihood; yaitu: Karena dan dan batas-batas yang digunakan dalam EM dapat dibedakan, dan bahwa , kita memiliki dan, oleh karena itu, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)bt(θt)=0limtL(θt)=0
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.