k -fold cross validation menghasilkan set data "baru" yang berbeda dari set data asli dengan menghapus beberapa case.
Untuk memudahkan penjelasan dan kejelasan saya akan bootstrap clustering.
Secara umum, Anda dapat menggunakan pengelompokan yang di-resampled untuk mengukur stabilitas solusi Anda: apakah itu hampir tidak berubah sama sekali atau apakah itu benar-benar berubah?
Meskipun Anda tidak memiliki kebenaran dasar, Anda tentu saja dapat membandingkan pengelompokan yang dihasilkan dari berbagai proses yang berbeda dari metode yang sama (resampling) atau hasil dari algoritma pengelompokan yang berbeda misalnya dengan mentabulasi:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
karena cluster adalah nominal, pesanan mereka dapat berubah secara sewenang-wenang. Tetapi itu berarti bahwa Anda diizinkan untuk mengubah urutan sehingga cluster sesuai. Kemudian elemen diagonal * menghitung kasus yang ditugaskan ke cluster yang sama dan elemen off-diagonal menunjukkan dengan cara apa tugas diubah:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Saya akan mengatakan resampling baik untuk menentukan seberapa stabil clustering Anda dalam setiap metode. Tanpa itu, tidak masuk akal untuk membandingkan hasilnya dengan metode lain.
aku , aku
Anda tidak mencampurkan validasi k-fold cross dan k-means clustering, bukan?