Adakah yang bisa menjelaskan Indeks-C dalam konteks pengelompokan hierarkis?

Ini adalah tindak lanjut dari pertanyaan ini . Saat ini saya sedang mencoba mengimplementasikan C-Index untuk menemukan jumlah cluster yang hampir optimal dari hierarki cluster. Saya melakukan ini dengan menghitung C-Index untuk setiap langkah dari pengelompokan hierarkis (aglomeratif). Masalahnya adalah bahwa C-Index minimal (0 tepatnya) untuk klaster yang sangat terdegenerasi. Pertimbangkan ini:

$c = \frac{S-S_{min}}{S_{max}-S_{min}}$

Dalam hal ini adalah jumlah dari semua jarak antara pasangan pengamatan di cluster yang sama di semua cluster. Biarkan menjadi jumlah pasangan ini. dan adalah jumlah dari jarak terendah / tertinggi di semua pasangan pengamatan. Pada langkah pertama pengelompokan hierarkis, dua pengamatan terdekat (jarak minimal) digabung menjadi sebuah kluster. Biarkan menjadi jarak antara pengamatan ini. Sekarang ada satu pasang pengamatan di cluster yang sama, jadi (semua cluster lain adalah lajang). Akibatnya . Masalahnya adalah juga sama dengan $S$ $n$ $S_{min}$ $S_{max}$ $n$ $d$ $n=1$ $S=d$ $S_{min}$ $d$ , karena adalah jarak terkecil (itulah sebabnya pengamatan di mana digabungkan terlebih dahulu). Jadi untuk kasus ini, C-Index selalu 0. Itu tetap 0 selama hanya cluster tunggal yang digabung. Ini berarti pengelompokan optimal menurut C-Index akan selalu terdiri dari sekelompok cluster yang berisi dua pengamatan, dan sisanya lajang. Apakah ini berarti bahwa C-Index tidak berlaku untuk pengelompokan hierarkis? Apakah saya melakukan sesuatu yang salah? Saya telah mencari banyak, tetapi tidak dapat menemukan penjelasan yang cocok. Dapatkah seseorang merujuk saya ke beberapa sumber daya yang tersedia secara bebas di internet? Atau, jika tidak, setidaknya buku yang bisa saya coba dapatkan di perpustakaan universitas saya? $d$

Terima kasih sebelumnya!

clustering

— Björn Pollex
sumber

Pengamatan Anda benar, tetapi semuanya baik-baik saja dengan indeks-C. C-index adalah 0 ketika solusi pengelompokan yang diamati tidak berbeda dari yang terbaik secara teori "ideal" di bawah jumlah yang diberikan (diamati) jarak dalam-cluster. Pertimbangkan sebuah dataset yang semuanya terdiri dari pasangan objek yang ketat, dan pasangan tersebut cukup berjauhan. Pengelompokan hierarkis di bawah hampir semua metode tautan akan pertama - pada langkah awal - "mengumpulkan" objek ke dalam pasangan ini. Dan sepanjang waktu itu, indeks-C akan tetap 0. Kemudian, pengelompokan akan datang untuk bergabung di antara pasangan-pasangan yang terpisah: indeks-C akan semakin memburuk.

— ttnphns

Algoritma untuk menghitung indeks-C ditunjukkan di sini stats.stackexchange.com/q/343878/3277 .

— ttnphns

PS Jangan lupa bahwa C-Index lebih rendah (lebih dekat ke 0) lebih baik!

— ttnphns

Ini mungkin salah satu kasus di mana ada lebih banyak seni daripada ilmu pengetahuan untuk pengelompokan. Saya menyarankan agar Anda membiarkan algoritma pengelompokan Anda berjalan untuk waktu yang singkat sebelum membiarkan perhitungan C-Index masuk. "Waktu singkat" mungkin setelah memproses beberapa pasangan, tepat ketika mulai melebihi 0, atau heuristik lainnya. (Bagaimanapun Anda tidak berharap untuk berhenti di 1 atau 2 cluster, jika tidak, algoritma pemisahan yang berbeda mungkin telah digunakan.)

Untuk rekomendasi buku, saya dapat menyarankan:

Analisis Cluster oleh Brian Everitt, Sabine Landau, Morven Leese

Anda dapat memindai / mencari konten yang tersedia di buku google untuk melihat apakah itu dapat memenuhi kebutuhan Anda. Ini berfungsi sebagai referensi bagi saya di masa lalu.

— ars
sumber

Ups, Anda menggunakan metode aglomerasi, jadi bagian "1 atau 2 kluster" tidak masuk akal - "terbalik" berlaku, Anda tidak ingin n-1 atau n-2 lajang, dll, yaitu membiarkan pengelompokan bekerja sebentar sebelum menerapkan kriteria validitas seharusnya tidak menjadi masalah.

— ars