Sejauh yang saya tahu, "rata-rata" dari sebuah cluster dan centroid dari satu cluster adalah hal yang sama, meskipun istilah "centroid" mungkin sedikit lebih tepat daripada "rata-rata" ketika berhadapan dengan data multivariat.
Untuk menemukan centroid, seseorang menghitung rata-rata (aritmatika) dari posisi poin secara terpisah untuk setiap dimensi. Misalnya, jika Anda memiliki poin di:
- (-1, 10, 3),
- (0, 5, 2), dan
- (1, 20, 10),
maka centroid akan ditempatkan di ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), yang menyederhanakan (0, 11 2/3, 5). (NB: Centroid tidak harus - dan jarang --- salah satu poin data asli)
Centroid juga kadang-kadang disebut pusat massa atau barycenter, berdasarkan interpretasi fisiknya (itu pusat massa suatu objek yang ditentukan oleh titik-titik). Seperti rata-rata, lokasi centroid meminimalkan jarak sum-kuadrat dari titik lain.
Ide terkait adalah medoid , yang merupakan titik data yang "paling tidak berbeda" dari semua titik data lainnya. Berbeda dengan centroid, medoid harus menjadi salah satu poin asli. Anda mungkin juga tertarik dengan median geometris yang merupakan analog dengan median, tetapi untuk data multivarian. Keduanya berbeda dari centroid.
ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)