Hierarchical clustering dengan variabel kategori


11

Bisakah variabel kategori digunakan dalam pengelompokan hierarkis? Saya telah mendengar hanya variabel kontinu yang digunakan, tetapi telah melihat orang yang mendiskusikan variabel kategori mungkin / mungkin tidak digunakan juga. Adakah yang bisa memberikan wawasan?


2
Ya tentu saja, data kategorikal sering menjadi subjek analisis klaster, terutama hierarkis. Banyak langkah-langkah kedekatan ada untuk variabel biner (termasuk set dummy yang merupakan sampah dari variabel kategori); juga langkah-langkah entropi. Kelompok kasus akan menjadi kombinasi atribut yang sering, dan berbagai tindakan memberikan bumbu khusus untuk perhitungan frekuensi. Satu masalah dengan pengelompokan data kategori adalah stabilitas solusi. Dan pertanyaan terakhir ini mengedepankan masalah korelasi variabel.
ttnphns

Cari situs ini untuk hierarchical clustering categoricalmembaca utas terkait.
ttnphns

Kemungkinan duplikat
pengelompokan

Saya kira ini bukan duplikat. Pertanyaan terkait adalah tentang R, dan bahkan mungkin di luar topik sekarang. Pertanyaan ini tentang statistik dan tidak menyebutkan paket perangkat lunak.
Peter Flom

@ttnphns: apakah Anda ingin memposting komentar Anda sebagai jawaban? Lebih baik mendapat jawaban singkat daripada tidak menjawab sama sekali. Siapa pun yang memiliki jawaban yang lebih baik dapat mempostingnya.
Stephan Kolassa

Jawaban:


3

Ya tentu saja, data kategorikal sering menjadi subjek analisis klaster, terutama hierarkis. Banyak langkah-langkah kedekatan ada untuk variabel biner (termasuk set dummy yang merupakan sampah dari variabel kategori); juga langkah-langkah entropi. Kelompok kasus akan menjadi kombinasi atribut yang sering, dan berbagai tindakan memberikan bumbu khusus untuk perhitungan frekuensi. Satu masalah dengan pengelompokan data kategori adalah stabilitas solusi. Dan pertanyaan terakhir ini mengedepankan masalah korelasi variabel.


Saya telah menyalin komentar ini oleh @ttnphns sebagai jawaban wiki komunitas karena komentar tersebut, kurang lebih, adalah jawaban untuk pertanyaan ini. Kami memiliki kesenjangan dramatis antara jawaban dan pertanyaan. Paling tidak sebagian dari masalahnya adalah bahwa beberapa pertanyaan dijawab dalam komentar: jika komentar yang menjawab pertanyaan adalah jawaban, kita akan memiliki lebih sedikit pertanyaan yang belum terjawab.
mkt - Pasang kembali Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.