GMM menggunakan tumpang tindih bukit yang membentang hingga tak terbatas (tetapi praktis hanya dihitung untuk 3 sigma). Setiap titik mendapatkan semua nilai probabilitas bukit. Juga, bukit-bukit itu "berbentuk telur" [oke, mereka elips simetris ] dan, dengan menggunakan matriks kovarian penuh, dapat dimiringkan .
K-berarti hard-assign sebuah titik ke satu cluster, sehingga skor dari pusat-pusat cluster lainnya diabaikan (secara implisit diatur ulang ke nol / tidak peduli). Bukit-bukit itu adalah gelembung-gelembung sabun berbentuk bola. Ketika dua gelembung sabun bersentuhan, batas di antara keduanya menjadi bidang datar (hyper-). Seperti halnya ketika Anda mengeluarkan busa dari banyak gelembung sabun, gelembung di bagian dalam tidak datar tetapi berbentuk kotak, sehingga batas antara banyak bola (hyper-) sebenarnya membentuk partisi ruang Voronoi dari ruang tersebut. Dalam 2D, ini cenderung terlihat samar-samar seperti pengepakan heksagonal, pikirkan sarang lebah (walaupun tentu saja sel Voronoi tidak dijamin menjadi heksagon). Bukit K-means bundar dan tidak miring, sehingga memiliki kekuatan representasi yang lebih kecil; tetapi lebih cepat untuk menghitung, terutama di dimensi yang lebih tinggi.
Karena K-means menggunakan metrik jarak Euclidean, maka diasumsikan bahwa dimensi dapat dibandingkan dan memiliki bobot yang sama. Jadi jika dimensi X memiliki satuan mil per jam, bervariasi dari 0 hingga 80, dan dimensi Y memiliki satuan pound, bervariasi dari 0 hingga 400, dan Anda memasang lingkaran di ruang XY ini, maka satu dimensi (dan penyebarannya) akan menjadi lebih kuat daripada dimensi lain dan akan menaungi hasilnya. Inilah sebabnya mengapa biasa untuk menormalkan data saat mengambil K-means.
Baik GMM dan K-means memodelkan data dengan menyesuaikan perkiraan terbaik dengan apa yang diberikan. GMM cocok untuk telur yang dimiringkan, dan K-means cocok untuk bola yang didahului. Tetapi data yang mendasarinya bisa berbentuk seperti apa pun, bisa berupa spiral atau lukisan Picasso, dan masing-masing algoritma masih berjalan, dan mengambil bidikan terbaiknya. Apakah model yang dihasilkan terlihat seperti data aktual tergantung pada proses fisik yang mendasari menghasilkan data. (Misalnya, pengukuran waktu tunda satu sisi; apakah Gaussian cocok? Mungkin.)
Rn
Dengan demikian gambar biner 8x8 Anda akan ditafsirkan sebagai hypercube 64 dimensi di hyperquadrant pertama. Algoritma kemudian menggunakan analogi geometris untuk menemukan kelompok. Jarak, dengan K-means, muncul sebagai jarak Euclidean dalam ruang 64-dimensi. Itu salah satu cara untuk melakukannya.