Agak sulit untuk memberikan solusi yang jelas tentang bagaimana memilih jumlah "terbaik" cluster dalam data Anda, apa pun metode pengelompokan yang Anda gunakan, karena Cluster Analysis berupaya mengisolasi kelompok unit statistik (baik itu individu atau variabel ) untuk tujuan eksplorasi atau deskriptif, pada dasarnya. Oleh karena itu, Anda juga harus menginterpretasikan output dari skema cluster Anda dan beberapa solusi cluster mungkin sama-sama menarik.
Sekarang, mengenai kriteria statistik yang biasa digunakan untuk memutuskan kapan harus berhenti mengumpulkan data, seperti yang ditunjukkan oleh @ars, sebagian besar adalah kriteria yang dipandu secara visual , termasuk analisis dendrogram atau inspeksi profil klaster, juga disebut plot siluet (Rousseeuw, 1987) . Beberapa kriteria numerik , juga dikenal sebagai indeks validitas, juga diusulkan, misalnya indeks validitas Dunn, indeks validitas Davies-Bouldin, indeks C, gamma Hubert, untuk beberapa nama. Hierarchical clustering sering dijalankan bersama-sama dengan k-means (pada kenyataannya, beberapa contoh k-means karena merupakan algoritma stokastik), sehingga menambah dukungan untuk solusi clustering yang ditemukan. Saya tidak tahu apakah semua hal ini tersedia dengan Python, tetapi sejumlah besar metode tersedia di R (lihatTampilan tugas Cluster , sudah dikutip oleh @mbq untuk pertanyaan terkait, Alat apa yang bisa digunakan untuk menerapkan algoritma clustering pada MovieLens? ). Pendekatan lain termasuk pengelompokan fuzzy dan pengelompokan berbasis model (juga disebut analisis sifat laten , di komunitas psikometrik) jika Anda mencari cara yang lebih kuat untuk memilih jumlah cluster dalam data Anda.
BTW, saya baru saja menemukan halaman web ini, scipy-cluster , yang merupakan perpanjangan dari Scipy untuk menghasilkan, memvisualisasikan, dan menganalisis cluster hierarkis . Mungkin itu termasuk fungsi lainnya? Saya juga pernah mendengar tentang PyChem yang menawarkan hal-hal yang cukup bagus untuk analisis multivarian.
Referensi berikut juga dapat membantu:
Steinley, D., & Brusco, MJ (2008). Pemilihan variabel dalam analisis klaster: Perbandingan empiris dari delapan prosedur. Psychometrika , 73 , 125-144.