Memilih jarak yang tepat bukanlah tugas dasar. Ketika kami ingin membuat analisis kluster pada kumpulan data, hasil yang berbeda dapat muncul dengan menggunakan jarak yang berbeda, jadi sangat penting untuk berhati-hati dalam memilih jarak mana karena kami dapat membuat artefak yang baik palsu yang menangkap dengan baik variabilitas, tetapi sebenarnya tanpa merasakan masalah kita.
The Euclidean jarak yang tepat ketika saya memiliki variabel numerik terus menerus dan saya ingin merefleksikan jarak mutlak. Jarak ini memperhitungkan setiap variabel dan tidak menghapus redudansi, jadi jika saya memiliki tiga variabel yang menjelaskan hal yang sama (berkorelasi), saya akan menimbang efek ini dengan tiga. Selain itu, jarak ini bukan skala invarian, jadi umumnya saya harus skala sebelumnya untuk menggunakan jarak tersebut.
Contoh ekologi: Kami memiliki pengamatan berbeda dari banyak daerah, di mana para ahli telah mengambil sampel beberapa faktor mikrobiologis, fisik dan kimia. Kami ingin menemukan pola dalam ekosistem. Faktor-faktor ini memiliki korelasi tinggi, tetapi kami tahu semua orang relevan, jadi kami tidak ingin menghapus redudansi ini. Kami menggunakan jarak Euclidean dengan data yang diskalakan untuk menghindari efek unit.
The Mahalanobis jarak yang tepat ketika saya memiliki variabel numerik terus menerus dan saya ingin merefleksikan jarak mutlak, tapi kami ingin menghilangkan redudansi. Jika kita memiliki variabel berulang, efek berulangnya akan menghilang.
Keluarga Hellinger , Profil Spesies dan jarak Chord sesuai ketika kita ingin menekankan pada perbedaan antara variabel, ketika kita ingin membedakan profil. Jarak-jarak ini berbobot dengan jumlah total setiap pengamatan, sedemikian rupa sehingga jaraknya kecil ketika variabel demi variabel individu lebih mirip, meskipun dalam besaran absolut sangat berbeda. Awas! Jarak ini mencerminkan perbedaan profil dengan sangat baik, tetapi kehilangan efek besarnya. Mereka bisa sangat berguna ketika kita memiliki ukuran sampel yang berbeda.
Contoh ekologi: Kami ingin mempelajari fauna dari banyak tanah dan kami memiliki matriks data inventarisasi gastropoda (lokasi pengambilan sampel dalam baris dan nama spesies dalam kolom). Matriks ini ditandai dengan memiliki banyak nol dan besaran yang berbeda karena beberapa lokasi memiliki beberapa spesies dan yang lainnya memiliki spesies lain. Kita bisa menggunakan jarak Hellinger.
Bray-Curtis sangat mirip, tetapi lebih tepat ketika kita ingin membedakan profil dan juga mempertimbangkan besaran relatif.