Berikut ini sebuah contoh, jika saya melakukan ini dalam mplus, yang mungkin membantu dan memuji jawaban yang lebih komprehensif:
Katakanlah saya memiliki 3 variabel kontinu dan ingin mengidentifikasi cluster berdasarkan ini. Saya akan menentukan model campuran (lebih khusus dalam kasus ini, model profil laten), dengan asumsi independensi bersyarat (variabel yang diamati independen, diberikan keanggotaan cluster) sebagai:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Saya akan menjalankan model ini beberapa kali, setiap kali menentukan jumlah cluster yang berbeda, dan memilih solusi yang paling saya sukai (untuk melakukan ini adalah topik yang luas sendiri).
Untuk kemudian menjalankan k-means, saya akan menentukan model berikut:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Jadi keanggotaan kelas hanya didasarkan pada jarak ke sarana variabel yang diamati. Seperti yang dinyatakan dalam tanggapan lain, varians tidak ada hubungannya dengan itu.
Hal yang menyenangkan tentang melakukan ini di mplus adalah bahwa ini adalah model bersarang, sehingga Anda dapat langsung menguji apakah kendala menghasilkan kecocokan yang lebih buruk atau tidak, selain dapat membandingkan ketidaksesuaian dalam klasifikasi antara kedua metode. Kedua model ini, omong-omong, dapat diestimasi menggunakan algoritma EM, sehingga perbedaannya lebih banyak tentang model.
Jika Anda berpikir dalam ruang 3-D, berarti 3 membuat titik ... dan varians tiga sumbu ellipsoid berjalan melalui titik itu. Jika ketiga varian itu sama, Anda akan mendapatkan sebuah bola.