Saya memiliki matriks semi-kecil fitur biner dimensi 250k x 100. Setiap baris adalah pengguna dan kolom adalah "tag" biner dari beberapa perilaku pengguna, misalnya "likes_cats".
user 1 2 3 4 5 ...
-------------------------
A 1 0 1 0 1
B 0 1 0 1 0
C 1 0 0 1 0
Saya ingin menyesuaikan pengguna menjadi 5-10 kelompok dan menganalisis pemuatan untuk melihat apakah saya dapat menafsirkan kelompok perilaku pengguna. Tampaknya ada beberapa pendekatan untuk menyesuaikan cluster pada data biner - apa yang menurut kami mungkin merupakan strategi terbaik untuk data ini?
PCA
Membuat matriks Jaccard Similarity , menyesuaikan cluster hirarkis dan kemudian menggunakan "node" atas.
K-median
K-medoid
Proximus ?
Agnes
Sejauh ini saya sudah cukup sukses dengan menggunakan pengelompokan hierarkis tapi saya benar-benar tidak yakin itu cara terbaik untuk pergi ..
tags = read.csv("~/tags.csv")
d = dist(tags, method = "binary")
hc = hclust(d, method="ward")
plot(hc)
cluster.means = aggregate(tags,by=list(cutree(hc, k = 6)), mean)