Saya memiliki algoritma clustering (bukan k-means) dengan input parameter (jumlah cluster). Setelah melakukan pengelompokan, saya ingin mendapatkan ukuran kuantitatif kualitas pengelompokan ini. Algoritma pengelompokan memiliki satu properti penting. Untuk k = 2 jika saya memberi makan titik data N tanpa perbedaan yang signifikan di antara mereka dengan algoritma ini sebagai hasilnya saya akan mendapatkan satu kluster yang berisi titik data N - 1 dan satu kluster dengan 1 titik data. Jelas ini bukan yang saya inginkan. Jadi saya ingin menghitung ukuran kualitas ini untuk memperkirakan kewajaran dari pengelompokan ini. Idealnya saya akan dapat membandingkan ukuran ini untuk k yang berbeda. Jadi saya akan menjalankan pengelompokan dalam kisaran dan memilih yang dengan kualitas terbaik. Bagaimana cara menghitung ukuran kualitas seperti itu?
MEMPERBARUI:
Berikut ini contoh ketika adalah pengelompokan yang buruk. Katakanlah ada 3 titik pada bidang yang membentuk segitiga sama sisi. Membagi titik-titik ini menjadi 2 kelompok jelas lebih buruk daripada membaginya menjadi 1 atau 3 kelompok.