Tujuan saya adalah untuk melihat bahwa algoritma K-means sebenarnya adalah algoritma Ekspektasi-Maksimalisasi untuk campuran Gaussian di mana semua komponen memiliki kovarian dalam batas sebagai .
Misalkan kita memiliki kumpulan data pengamatan dari variabel acak .
Fungsi objektif untuk M-means diberikan oleh:
(jika titik data ditugaskan ke cluster , maka dan untuk k).
Algoritma K-means meminimalkan melalui iterasi hingga konvergensi, yang melibatkan dua langkah berturut-turut:
(E) minimal sehubungan dengan menjaga semua tetap
(M) meminimalkan sehubungan dengan menjaga semua tetap
Secara umum, menunjukkan semua data yang diamati oleh , semua variabel laten oleh dan set semua parameter model oleh , algoritma EM memaksimalkan p distribusi posterior (\ theta | X) melalui iterasi hingga konvergensi, dari dua langkah bergantian:
(E ) menghitung ekspektasi
(M) temukan
Sekarang perhatikan distribusi campuran Gaussian: Memperkenalkan variabel acak biner laten -dimensi oleh , kita melihat bahwa: Jadi
Jika sekarang semua Gaussians dalam model campuran memiliki kovarian , dengan mempertimbangkan batas Saya dapat dengan mudah menunjukkan bahwa mana adalah sebagai didefinisikan di atas. Jadi memang langkah (E) memperbarui seperti pada algoritma K-means.
Namun, saya memiliki masalah dengan memaksimalkan dalam konteks ini, seperti untuk .
Apakah benar, bahwa hingga beberapa perkalian konstan dan skalar:
?
Mungkin saya melewatkan sesuatu. Ada saran?