Bagaimana cara menentukan jumlah cluster di K-means clustering?

Apakah ada cara untuk menentukan jumlah cluster optimal atau haruskah saya mencoba nilai yang berbeda dan memeriksa tingkat kesalahan untuk memutuskan nilai terbaik?

clustering unsupervised-learning

— berkay
sumber

@berkay Bagaimana Anda menentukan tingkat kesalahan untuk metode yang tidak diawasi ini? (Atau maksud Anda dengan SS?)

— chl

@ chl, saya dapat menggunakan jumlah kesalahan kuadrat untuk semua cluster atau akurasi keseluruhan (dalam hal ini saya tahu label kelas.)

— berkay

@berkay Algoritma sederhana untuk menemukan cluster No. adalah menghitung WSS rata-rata untuk 20 run k-means pada peningkatan jumlah cluster (dimulai dengan 2, dan berakhir dengan mengatakan 9 atau 10), dan menyimpan solusi yang memiliki WSS minimal pada set cluster ini. Metode lain adalah statistik Gap . Tetapi jika Anda sudah memiliki contoh yang berlabel, lalu mengapa Anda mencoba metode yang tidak diawasi?

— chl

@chl terima kasih, pertanyaan bagus, kita bisa menebak fitur tergantung dari cluster, saya menganalisis karakteristik intrusi baru, mimikri aplikasi legal.

— berkay

Saya telah menjawab Q serupa dengan setengah lusin metode (menggunakan R) di sini: stackoverflow.com/a/15376462/1036500

— Ben

Metode yang saya gunakan adalah menggunakan CCC (Kriteria Clustering Kubik). Saya mencari CCC meningkat maksimum ketika saya menambah jumlah cluster dengan 1, dan kemudian mengamati ketika CCC mulai berkurang. Pada saat itu saya mengambil jumlah cluster pada maksimum (lokal). Ini akan mirip dengan menggunakan plot scree untuk memilih jumlah komponen utama.

Laporan Teknis SAS A-108 Kriteria Clustering Kubik ( pdf )

= jumlah observasi = jumlah cluster = jumlah variabel = jumlah cluster = Data matriks = matriks cluster sarana = indikator klaster ( jika obs . dalam cluster , 0 jika tidak) $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$
$Z$ $z_{ik}=1$ $i$ $k$

Asumsikan setiap variabel memiliki rata-rata 0:
, $Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

Matriks (total) = = (antara kluster) matriks = = (dalam klaster) matriks = = $SS$ $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

(trace = jumlah elemen diagonal) $R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$

Tumpuk kolom menjadi satu kolom panjang. Regresi pada produk Kronecker dari dengan matriks identitas Hitung untuk regresi ini - sama $X$
$Z$ $p\times p$
$R^2$ $R^2$

Gagasan CCC adalah untuk membandingkan Anda dapatkan untuk sekelompok cluster tertentu dengan yang akan Anda dapatkan dengan mengelompokkan set poin yang terdistribusi secara seragam dalam ruang dimensi. $R^2$ $R^2$ $p$

— Ralph Winters
sumber

Ada kriteria lain selain CCC. Lihat Menentukan jumlah cluster dalam set data , untuk melihat yang utama.

— Vincent Labatut