Jawaban Sergey mengandung titik kritis, yaitu bahwa koefisien siluet mengkuantifikasi kualitas pengelompokan yang dicapai - jadi Anda harus memilih jumlah cluster yang memaksimalkan koefisien siluet.
Jawaban panjangnya adalah bahwa cara terbaik untuk mengevaluasi hasil dari upaya pengelompokan Anda adalah mulai dengan benar-benar memeriksa - inspeksi manusia - cluster terbentuk dan membuat penentuan berdasarkan pada pemahaman tentang apa data mewakili, apa yang mewakili cluster, dan apa yang ingin dicapai oleh pengelompokan.
Ada banyak metode kuantitatif untuk mengevaluasi hasil pengelompokan yang harus digunakan sebagai alat, dengan pemahaman penuh tentang keterbatasan. Mereka cenderung cukup intuitif di alam, dan dengan demikian memiliki daya tarik alami (seperti masalah pengelompokan pada umumnya).
Contoh: massa cluster / jari-jari / kerapatan, kohesi atau pemisahan antar cluster, dll. Konsep ini sering digabungkan, misalnya, rasio pemisahan dengan kohesi harus besar jika pengelompokan berhasil.
Cara pengelompokan diukur diinformasikan oleh jenis algoritma pengelompokan yang digunakan. Misalnya, mengukur kualitas algoritma pengelompokan lengkap (di mana semua titik dimasukkan ke dalam kelompok) dapat sangat berbeda dari mengukur kualitas algoritma pengelompokan fuzzy berbasis ambang batas (di mana beberapa titik mungkin dibiarkan tidak dikelompokkan sebagai 'noise') ).
Koefisien siluet adalah salah satu ukuran tersebut. Ia bekerja sebagai berikut:
Untuk setiap titik p, pertama-tama temukan jarak rata-rata antara p dan semua titik lain dalam kelompok yang sama (ini adalah ukuran kohesi, sebut saja A) Kemudian temukan jarak rata-rata antara p dan semua titik di kluster terdekat (ini adalah ukuran pemisahan dari kluster terdekat lainnya, sebut saja B). Koefisien siluet untuk p didefinisikan sebagai perbedaan antara B dan A dibagi dengan yang lebih besar dari keduanya (maks (A, B)).
Kami mengevaluasi koefisien kluster dari setiap titik dan dari sini kami dapat memperoleh koefisien klaster rata-rata 'keseluruhan'.
Secara intuitif, kami mencoba mengukur ruang antar cluster. Jika kohesi cluster baik (A kecil) dan pemisahan kluster baik (B besar), pembilangnya akan besar, dll.
Saya telah membuat contoh di sini untuk menunjukkan ini secara grafis.
Dalam plot ini data yang sama diplot lima kali; warna menunjukkan cluster yang dibuat oleh k-means clustering, dengan k = 1,2,3,4,5. Yaitu, saya telah memaksakan algoritma pengelompokan untuk membagi data menjadi 2 kelompok, kemudian 3, dan seterusnya, dan mewarnai grafik sesuai dengan itu.
Plot siluet menunjukkan bahwa koefisien siluet tertinggi ketika k = 3, menunjukkan bahwa itu adalah jumlah cluster optimal. Dalam contoh ini kami beruntung dapat memvisualisasikan data dan kami mungkin setuju bahwa memang, tiga kelompok paling baik menangkap segmentasi dari kumpulan data ini.
Jika kami tidak dapat memvisualisasikan data, mungkin karena dimensi yang lebih tinggi, plot siluet masih akan memberi kami saran. Namun, saya berharap jawaban saya yang agak bertele-tele di sini juga menunjukkan bahwa "saran" ini bisa sangat tidak memadai atau hanya salah dalam skenario tertentu.