K-means bukan algoritma pengelompokan berbasis jarak .
K-means mencari jumlah minimum penetapan kuadrat , yaitu meminimalkan varians yang tidak dinormalisasi (= total_SS
) dengan menetapkan poin ke pusat-pusat cluster.
Agar k-means menyatu, Anda membutuhkan dua kondisi:
- menugaskan kembali poin mengurangi jumlah kuadrat
- mengkomputasi ulang mean mengurangi jumlah kuadrat
Karena hanya ada jumlah kombinasi terbatas, Anda tidak dapat mengurangi nilai ini secara tak terhingga dan algoritma harus konvergen di beberapa titik ke optimum lokal .
∑saya( xsaya- μj i)2j. Secara matematis, penetapan dengan jumlah kuadrat sama dengan penetapan dengan menutup kuadrat jarak Euclidean, yang (jika Anda menghabiskan siklus CPU untuk komputasi sqrt
) sama dengan penetapan jarak Euclidean minimal. Jadi intuisi menetapkan setiap titik ke mean terdekat adalah benar, tetapi tidak apa masalah optimasi.
between_SS
mungkin adalah jumlah kuadrat tertimbang antara dua cara, untuk mengukur seberapa baik pusat-pusat cluster dipisahkan (catatan: pusat-pusat cluster, itu tidak membandingkan cluster yang sebenarnya - secara teknis, kluster sel Voronoi menyentuh kluster tetangga sel Voronoi).
Perhatikan bahwa dengan k-berarti Anda dapat meningkatkan kualitas pengelompokan naif dengan meningkatkan k. Kualitas yang diukur di sini adalah nilai matematika, yang mungkin tidak cocok dengan persyaratan pengguna. Iris sebenarnya adalah contoh yang cukup bagus, di mana k-means sering menyatu dengan hasil yang kurang memuaskan, bahkan mengingat informasi eksternal bahwa seharusnya ada 3 cluster.
Jika Anda menginginkan variasi k-means berbasis jarak , lihat k-medoid . Di sini konvergensi dipastikan dengan mengganti mean dengan medoid:
- Setiap objek ditugaskan ke kluster terdekat (dengan ukuran jarak arbitrer)
- Pusat cluster diperbarui ke objek paling utama dari cluster, yaitu dengan jarak rata-rata terkecil ke semua yang lain.
Di setiap langkah, jumlah jarak berkurang; ada sejumlah kombinasi terbatas, oleh karena itu algoritma harus diakhiri pada beberapa minimum lokal.