Persyaratan untuk pengelompokan hierarkis
Hierarchical clustering dapat digunakan dengan langkah-langkah kesamaan dan ketidaksamaan yang sewenang-wenang. (Sebagian besar alat mengharapkan perbedaan, tetapi akan memungkinkan nilai negatif - terserah Anda untuk memastikan apakah nilai kecil atau besar akan lebih disukai.).
Hanya metode berdasarkan centroid atau varians (seperti metode Ward) yang istimewa, dan harus digunakan dengan Euclidean kuadrat. (Untuk memahami alasannya, harap pelajari hubungan ini dengan seksama.)
Hubungan tunggal, hubungan rata-rata, hubungan lengkap tidak banyak terpengaruh, itu masih akan menjadi minimum / rata-rata / maksimum dari perbedaan berpasangan.
Korelasi sebagai ukuran jarak
Jika Anda memproses ulang data Anda ( n pengamatan, fitur p ) sedemikian rupa sehingga setiap fitur memiliki μ=0 dan σ=1 (yang melarang fitur konstan!), Maka korelasi berkurang menjadi cosinus:
Corr(X,Y)=Cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=E[XY]=1n⟨X,Y⟩
Dalam kondisi yang sama, jarak Euclidean kuadrat juga berkurang menjadi cosinus:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Oleh karena itu, kecuali jika data Anda mengalami degenerasi, menggunakan korelasi untuk pengelompokan hierarkis harus baik-baik saja. Cukup praproses seperti dijelaskan di atas, lalu gunakan jarak Euclidean kuadrat.