Ketika mencoba menjelaskan analisis kluster, adalah umum bagi orang-orang untuk salah memahami proses yang terkait dengan apakah variabel berkorelasi. Salah satu cara untuk membuat orang melewati kebingungan itu adalah plot seperti ini:
Ini jelas menampilkan perbedaan antara pertanyaan apakah ada kelompok dan pertanyaan apakah variabel terkait. Namun, ini hanya menggambarkan perbedaan untuk data kontinu. Saya kesulitan memikirkan analog dengan data kategorikal:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
Kita dapat melihat bahwa ada dua kelompok yang jelas: orang-orang dengan properti A dan B, dan yang tidak. Namun, jika kita melihat variabel (misalnya, dengan uji chi-squared), mereka jelas terkait:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
Saya merasa saya bingung bagaimana membangun contoh dengan data kategorikal yang analog dengan yang dengan data kontinu di atas. Apakah mungkin untuk memiliki cluster dalam data murni kategori tanpa variabel yang terkait juga? Bagaimana jika variabel memiliki lebih dari dua level, atau karena Anda memiliki jumlah variabel yang lebih besar? Jika pengelompokan pengamatan tidak selalu memerlukan hubungan antara variabel dan sebaliknya, apakah itu menyiratkan bahwa pengelompokan tidak benar-benar layak dilakukan ketika Anda hanya memiliki data kategorikal (yaitu, haruskah Anda menganalisis variabel saja sebagai gantinya)?
Pembaruan: Saya meninggalkan banyak pertanyaan awal karena saya hanya ingin fokus pada gagasan bahwa contoh sederhana dapat dibuat yang akan langsung intuitif bahkan kepada seseorang yang sebagian besar tidak terbiasa dengan analisis cluster. Namun, saya menyadari bahwa banyak pengelompokan bergantung pada pilihan jarak dan algoritma, dll. Mungkin membantu jika saya menentukan lebih banyak.
Saya mengakui bahwa korelasi Pearson benar-benar hanya sesuai untuk data yang berkelanjutan. Untuk data kategorikal, kita dapat memikirkan uji chi-squared (untuk tabel kontingensi dua arah) atau model log-linear (untuk tabel kontingensi multi-arah) sebagai cara untuk menilai independensi variabel kategorikal.
Untuk suatu algoritma, kita dapat membayangkan menggunakan k-medoid / PAM, yang dapat diterapkan pada situasi kontinu dan data kategorikal. (Perhatikan bahwa, bagian dari maksud di balik contoh kontinu adalah bahwa algoritma pengelompokan yang masuk akal apa pun harus dapat mendeteksi kluster tersebut, dan jika tidak, contoh yang lebih ekstrem harus dimungkinkan untuk dibuat.)
Mengenai konsepsi jarak. Saya menganggap Euclidean sebagai contoh berkelanjutan, karena ini akan menjadi yang paling mendasar bagi pemirsa yang naif. Saya kira jarak yang analog dengan data kategorikal (dalam hal itu akan menjadi yang paling intuitif segera) akan menjadi pencocokan sederhana. Namun, saya terbuka untuk diskusi jarak lain jika itu mengarah pada solusi atau hanya diskusi yang menarik.
[data-association]
tag. Saya tidak yakin apa yang seharusnya ditunjukkan & tidak memiliki kutipan / petunjuk penggunaan. Apakah kita benar-benar membutuhkan tag ini? Apakah sepertinya kandidat yang baik untuk dihapus. Jika kami benar-benar membutuhkannya di CV & Anda tahu apa yang seharusnya, bisakah Anda setidaknya menambahkan kutipan untuk itu?