Seringkali mereka mengatakan bahwa tidak ada teknik analitik lain yang sekuat dari "seperti yang Anda tabur akan Anda potong", seperti halnya analisis cluster.
Metafora cluster . "Saya lebih suka metode ini karena merupakan kelompok seperti itu (atau sedemikian rupa) yang bertemu dengan konsep saya tentang cluster dalam proyek khusus saya" . Setiap algoritma pengelompokan atau subalgoritma / metode menyiratkan struktur / bangun / bentuk klaster yang sesuai. Berkenaan dengan metode hierarkis, saya telah mengamati ini di salah satu poin di sini , dan juga di sini. Yaitu beberapa metode memberikan klaster yang secara prototipe "tipe", yang lain memberikan "lingkaran [berdasarkan minat]", masih "platform" [politik] "lainnya," kelas "," rantai ", dll. Pilih metode yang cocok dengan metafora klaster untuk Anda. Sebagai contoh, jika saya melihat segmen pelanggan saya sebagai tipe - kurang lebih bentuk bola dengan pemadatan di bagian tengah, saya akan memilih metode tautan Ward atau K-means, tetapi tidak pernah metode tautan tunggal, jelas. Jika saya membutuhkan titik perwakilan fokus saya bisa menggunakan metode medoid. Jika saya perlu menyaring poin untuk mereka menjadi perwakilan inti dan periferal saya bisa menggunakan pendekatan DBSCAN.
Asumsi data / metode . "Saya lebih suka metode ini karena sifat atau format data saya cenderung untuk itu" . Poin penting dan luas ini juga disebutkan dalam tautan saya di atas. Algoritma / metode yang berbeda mungkin memerlukan jenis data yang berbeda untuk mereka atau ukuran kedekatan yang berbeda untuk diterapkan pada data, dan sebaliknya, data yang berbeda mungkin memerlukan metode yang berbeda. Ada metode untuk kuantitatif dan metode untuk data kualitatif. Campuran fitur kuantitatif + kualitatif secara dramatis mempersempit ruang lingkup pilihan antara metode. Ward atau K-meansdidasarkan - secara eksplisit atau implisit - pada ukuran kedekatan jarak euclidean (kuadrat) saja dan tidak pada ukuran sewenang-wenang. Data biner dapat meminta langkah-langkah kesamaan khusus yang pada gilirannya akan sangat mempertanyakan menggunakan beberapa metode, misalnya Ward atau K-means, untuk mereka. Data besar mungkin memerlukan algoritma khusus atau implementasi khusus.
Validitas internal . "Saya lebih suka metode ini karena memberi saya cluster yang paling jelas, ketat dan terisolasi" . Pilih algoritma / metode yang menunjukkan hasil terbaik untuk data Anda dari sudut pandang ini. Semakin rapat, semakin padat cluster di dalamnya dan semakin sedikit kepadatan di luarnya (atau semakin lebar jaraknya), semakin besar validitas internal. Pilih dan gunakan kriteria pengelompokan internal yang sesuai ( yang banyak - Calinski-Harabasz, Silhouette, dll dll; kadang-kadang juga disebut "aturan berhenti") untuk menilai itu. [Waspadalah terhadap overfitting: semua metode pengelompokan berusaha untuk memaksimalkan beberapa versi validitas internal (itu apa pengelompokan adalah1tentang), validitas yang sangat tinggi mungkin sebagian karena keanehan acak dari dataset yang diberikan; memiliki set data uji selalu bermanfaat.]
Validitas eksternal . "Saya lebih suka metode ini karena memberi saya kelompok yang berbeda dengan latar belakang mereka atau kelompok yang cocok dengan yang benar yang saya tahu" . Jika partisi pengelompokan menyajikan kluster yang jelas berbeda pada beberapa latar belakang penting (yaitu tidak berpartisipasi dalam analisis klaster) karakteristik maka itu adalah aset untuk metode yang menghasilkan partisi. Gunakan analisis apa pun yang berlaku untuk memeriksa perbedaannya; di sana juga ada sejumlah kriteria pengelompokan eksternal yang berguna(Rand, ukuran-F, dll, dll). Varian lain dari kasus validasi eksternal adalah ketika Anda entah bagaimana mengetahui cluster sebenarnya dalam data Anda (tahu "kebenaran dasar"), seperti ketika Anda membuat cluster sendiri. Lalu seberapa akurat metode pengelompokan Anda dapat mengungkap cluster nyata adalah ukuran validitas eksternal.
Validitas silang . "Saya lebih suka metode ini karena memberi saya kluster yang sangat mirip pada sampel data yang setara atau mengekstrapolasi dengan baik ke sampel tersebut" . Ada berbagai pendekatan dan hibrida mereka, beberapa lebih layak dengan beberapa metode pengelompokan sementara yang lain dengan metode lain. Dua pendekatan utama adalah pemeriksaan stabilitas dan generalisasimemeriksa. Memeriksa stabilitas metode pengelompokan, satu secara acak membelah atau mengubah sampel data menjadi sebagian berpotongan atau sepenuhnya memisahkan set dan melakukan pengelompokan pada masing-masing; kemudian mencocokkan dan membandingkan solusi dengan beberapa karakteristik cluster yang muncul (misalnya, lokasi kecenderungan pusat cluster) apakah stabil di seluruh set. Memeriksa generalisasi menyiratkan melakukan pengelompokan pada set kereta dan kemudian menggunakan karakteristik gugus yang muncul atau aturan untuk menetapkan objek dari set tes, ditambah juga melakukan pengelompokan pada set tes. Keanggotaan hasil penugasan dan hasil pengelompokan objek set uji dibandingkan kemudian.
Interpretasi . "Saya lebih suka metode ini karena memberi saya kelompok yang, menjelaskan, paling persuasif bahwa ada makna di dunia" . Ini bukan statistik - ini adalah validasi psikologis Anda. Seberapa berarti hasilnya bagi Anda, domain dan, mungkin audiens / klien. Pilih metode yang memberikan hasil paling pedas dan dapat diartikan.
Suka berteman . Beberapa penelitian secara teratur dan semua penelitian kadang-kadang akan mengatakan "Saya lebih suka metode ini karena memberikan data saya hasil yang sama dengan sejumlah metode lain di antara semua yang saya periksa" . Ini adalah strategi heuristik tetapi dipertanyakan yang mengasumsikan bahwa ada data yang cukup universal atau metode yang cukup universal.
Poin 1 dan 2 bersifat teoretis dan mendahului mendapatkan hasilnya; eksklusif bergantung pada poin-poin ini adalah strategi eksplorasi angkuh, percaya diri. Poin 3, 4 dan 5 bersifat empiris dan ikuti hasilnya; eksklusif bergantung pada poin-poin ini adalah strategi eksplorasi gelisah, try-all-out. Poin 6 adalah kreatif yang berarti bahwa ia menyangkal hasil apa pun untuk mencoba membenarkannya. Poin 7 setia mauvaise foi.