Ini adalah tindak lanjut dari pertanyaan ini . Saat ini saya sedang mencoba mengimplementasikan C-Index untuk menemukan jumlah cluster yang hampir optimal dari hierarki cluster. Saya melakukan ini dengan menghitung C-Index untuk setiap langkah dari pengelompokan hierarkis (aglomeratif). Masalahnya adalah bahwa C-Index minimal (0 tepatnya) untuk klaster yang sangat terdegenerasi. Pertimbangkan ini:
Dalam hal ini adalah jumlah dari semua jarak antara pasangan pengamatan di cluster yang sama di semua cluster. Biarkan menjadi jumlah pasangan ini. dan adalah jumlah dari jarak terendah / tertinggi di semua pasangan pengamatan. Pada langkah pertama pengelompokan hierarkis, dua pengamatan terdekat (jarak minimal) digabung menjadi sebuah kluster. Biarkan menjadi jarak antara pengamatan ini. Sekarang ada satu pasang pengamatan di cluster yang sama, jadi (semua cluster lain adalah lajang). Akibatnya . Masalahnya adalah juga sama dengan, karena adalah jarak terkecil (itulah sebabnya pengamatan di mana digabungkan terlebih dahulu). Jadi untuk kasus ini, C-Index selalu 0. Itu tetap 0 selama hanya cluster tunggal yang digabung. Ini berarti pengelompokan optimal menurut C-Index akan selalu terdiri dari sekelompok cluster yang berisi dua pengamatan, dan sisanya lajang. Apakah ini berarti bahwa C-Index tidak berlaku untuk pengelompokan hierarkis? Apakah saya melakukan sesuatu yang salah? Saya telah mencari banyak, tetapi tidak dapat menemukan penjelasan yang cocok. Dapatkah seseorang merujuk saya ke beberapa sumber daya yang tersedia secara bebas di internet? Atau, jika tidak, setidaknya buku yang bisa saya coba dapatkan di perpustakaan universitas saya?
Terima kasih sebelumnya!