Asumsikan bahwa kita memiliki satu set elemen E dan kesamaan ( tidak jarak ) fungsi sim (ei, ej) antara dua elemen ei, ej ∈ E .
Bagaimana kita (secara efisien) mengelompokkan elemen-elemen E , menggunakan sim ?
k -berarti, misalnya, membutuhkan k yang diberikan , Canopy Clustering membutuhkan dua nilai ambang batas. Bagaimana jika kita tidak menginginkan parameter yang sudah ditentukan sebelumnya?
Perhatikan, sim itu tidak selalu berupa metrik (yaitu ketidaksamaan segitiga mungkin, atau mungkin tidak berlaku). Selain itu, tidak masalah jika kluster dipisahkan (partisi E ).
1-sim(ei, ej) = Distance
. Dengan metrik jarak, Anda dapat menerapkan misalnya pengelompokan hierarkis. Turun dari root, Anda akan melihat pada level berapa granularity cluster masuk akal untuk masalah khusus Anda.