Jika kamu secara acak membagi sampel menjadi 5 subsamples, berarti 5 Anda hampir akan bertepatan. Apa arti dari membuat titik-titik dekat seperti itu menjadi pusat-pusat cluster awal?
Dalam banyak implementasi K-means, pemilihan default pusat cluster awal didasarkan pada ide yang berlawanan: untuk menemukan 5 poin yang paling berjauhan dan menjadikannya pusat awal. Anda mungkin bertanya apa yang mungkin menjadi cara untuk menemukan titik-titik yang jauh itu? Inilah yang dilakukan K-means SPSS untuk itu:
Ambil k case (titik) dari dataset sebagai pusat awal. Semua kasus lainnya sedang diperiksa kemampuannya untuk menggantikan mereka sebagai pusat awal, dengan ketentuan sebagai berikut:
- a) Jika kasing jauh dari pusat terdekat dengan jarak antara dua paling dekat satu sama lain, kasing menggantikan pusat dua yang terakhir yang lebih dekat.
- b) Jika kasing jauh dari pusat 2 yang paling dekat dengan jarak dari pusat ke terdekat dan pusat paling dekat dengan yang terakhir ini, kasing ini menggantikan pusat terdekat dengan itu.
Jika kondisi (a) tidak terpenuhi, kondisi (b) diperiksa; jika tidak puas maka kasing tidak menjadi pusat. Sebagai hasil dari run through cases tersebut kami mendapatkan k maksimal case di cloud yang menjadi pusat awal. Hasil algo ini, meskipun cukup kuat, tidak sepenuhnya tidak sensitif terhadap pilihan mulai dari "setiap k kasus" dan untuk urutan kasus dalam dataset; jadi, beberapa upaya awal acak masih diterima, karena selalu demikian halnya dengan K-means.
Lihat jawaban saya dengan daftar metode inisialisasi populer untuk k-means. Metode pemisahan menjadi subsampel acak (dikritik di sini oleh saya dan orang lain) serta metode yang dijelaskan yang digunakan oleh SPSS - termasuk dalam daftar juga.