Pada korelasi cophenetic untuk clustering dendrogram


10

Pertimbangkan konteks pengelompokan dendrogram. Mari kita sebut perbedaan asli jarak antara individu. Setelah membuat dendrogram, kami mendefinisikan ketidaksamaan cophenetic antara dua individu sebagai jarak antara kelompok-kelompok di mana individu-individu ini berada.

Beberapa orang menganggap bahwa korelasi antara perbedaan asli dan perbedaan cophenetic (disebut korelasi cophenetic ) adalah "indeks kesesuaian" dari klasifikasi. Ini terdengar sangat membingungkan bagi saya. Keberatan saya tidak bergantung pada pilihan khusus dari korelasi Pearson, tetapi pada gagasan umum bahwa setiap hubungan antara perbedaan asli dan perbedaan cophenetic dapat dikaitkan dengan kesesuaian klasifikasi.

Apakah Anda setuju dengan saya, atau dapatkah Anda menyajikan beberapa argumen yang mendukung penggunaan korelasi cophenetic sebagai indeks kesesuaian untuk klasifikasi dendrogram?


Anda tidak menjelaskan keberatan Anda kepada (cukup intuitif) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Klasifikasi harus mencerminkan perbedaan asli. Fitur dasar klasifikasi Dendrogram untuk melakukan ini adalah melalui perbedaan cophenetic. Apakah ada sesuatu salah?
ttnphns

1
Ngomong-ngomong, seseorang tidak boleh mencampurkan konsep hierarkis (aglometatif) pengelompokan dengan klasifikasi hirarkis (dendrogram) . Pengelompokan menghasilkan dendrogram sebagai laporan proses ; itu tidak mengklaim itu sebagai hasil klasifikasi hirarkis .
ttnphns

1
Korelasi fenfenik diusulkan hanya untuk klasifikasi "dogmatis" - di mana klasifikasi harus mencerminkan ketidaksamaan berpasangan, kemudian gagasan tentang kegunaan korelasi (kinetik) mengikuti secara langsung.
ttnphns

2
Anda mungkin ingin membaca makalah ini tentang korelasi cophenetic
ttnphns

3
@ StéphaneLaurent Saya tidak punya kontribusi untuk menjawab pertanyaan Anda, tetapi saya telah membaca dialog. Tidak ada yang Anda katakan terdengar menyinggung saya. Anda juga mengatakan Anda tidak tahu perbedaan antara klasifikasi dan pengelompokan dan saya belum melihat pertanyaan sederhana itu dijawab. Ini adalah perbedaan antara apa yang disebut pembelajaran mesin oleh orang yang diawasi dan yang tidak diawasi. Dalam klasifikasi Anda tahu semua label kelas untuk data Anda dan menggunakan informasi itu untuk membangun aturan klasifikasi untuk kasus-kasus masa depan yang tidak memiliki label. Dalam cluster Anda tidak memiliki label.
Michael R. Chernick

Jawaban:


2

... adalah "indeks kesesuaian" dari klasifikasi

Bagi saya itu tidak benar jelas apa yang dimaksud dengan itu. Cara saya mendapatkannya, adalah itu

korelasi antara perbedaan asli dan perbedaan cophenetic (disebut korelasi cophenetic)

adalah ukuran struktur hirarkis di antara pengamatan , yaitu jarak mereka. Artinya perbedaan-perbedaan pada pengamatan dalam kelompok yang berbeda lebih disukai serupa. Mempertimbangkan dataset A dan B yang dikelompokkan menggunakan jarak euclidean dan hubungan lengkap ... masukkan deskripsi gambar di sini ... bahkan tanpa melihat peta jarak cophenetic atau menghitung korelasi cophenetic, orang dapat melihat, bahwa korelasi cophenetic A lebih tinggi daripada B Dalam hierarki ada tingkatan. Jadi CC memberitahu tentang apakah jarak ke pengamatan pada tingkat yang sama (cluster) adalah serupa.

Demi kelengkapan: Korelasi cophenetic adalah CC (A) = 0,936 dan CC (B) = 0,691


1
Saya berharap saya lebih ahli dalam hal ini. Saya tidak cukup mengikuti contoh Anda dengan heatmap. Apa yang Anda lihat yang membuat CC (A)> CC (B) jelas? Misalnya, jika segitiga atas adalah jarak cophenetic & segitiga bawah adalah jarak asli, & keduanya menunjukkan pola yang sama, maka saya akan mengenali bahwa CC akan tinggi, dll. W / ini saya tidak yakin bagaimana membuat kesimpulan seperti itu . Apakah hanya karena A secara alami akan menghasilkan pengelompokan yang lebih baik & sehingga CC yang dihasilkan hanya akan berakhir dengan cocok?
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.