Christopher Bishop mendefinisikan nilai yang diharapkan dari fungsi kemungkinan log data lengkap (yaitu dengan asumsi bahwa kita diberikan data yang dapat diamati X serta data laten Z) sebagai berikut:
di mana didefinisikan sebagai:
Idenya, seperti dijelaskan, adalah untuk mempertimbangkan Gaussian Mixture Model di mana matriks kovarians dari komponen campuran diberikan oleh , di mana adalah parameter varians yang dibagi oleh semua komponen, seperti bahwa:
dan karenanya, sekarang didefinisikan sebagai:
The Argumen sekarang adalah sebagai berikut:
jika kita mempertimbangkan batas , kita melihat bahwa dalam penyebut istilah untuk adalah yang terkecil, akan menjadi nol paling lambat, dan karenanya tanggung jawab untuk titik data semua pergi ke nol kecuali untuk istilah j, di mana tanggung jawab akan disatukan. Dengan demikian, dalam batas ini, kami memperoleh penugasan yang sulit dari titik data ke cluster, seperti pada algoritma berarti, sehingga
di mana didefinisikan sebagai:
Pertanyaan saya adalah bagaimana argumen di atas berlaku? Yaitu, apa artinya suatu istilah untuk menjadi nol ? Dan bagaimana cara mengambil batas di eqn menghasilkan tanggung jawab biner?