Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan k-means?
Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan k-means?
Jawaban:
Jika variabel Anda adalah unit yang tak tertandingi (misalnya tinggi dalam cm dan berat dalam kg), tentu saja Anda harus menstandarkan variabel. Bahkan jika variabel dari unit yang sama tetapi menunjukkan varian yang sangat berbeda, itu masih merupakan ide yang baik untuk melakukan standarisasi sebelum K-means. Anda tahu, pengelompokan K-means adalah "isotropik" di semua arah ruang dan karenanya cenderung menghasilkan lebih banyak atau lebih sedikit (bukan memanjang) kluster. Dalam situasi ini meninggalkan varians tidak sama dengan menempatkan lebih berat pada variabel dengan varians lebih kecil, sehingga cluster akan cenderung dipisahkan sepanjang variabel dengan varians yang lebih besar.
Hal lain yang juga perlu diingatkan adalah bahwa hasil pengelompokan K-means berpotensi sensitif terhadap urutan objek dalam kumpulan data . Praktik yang dibenarkan adalah menjalankan analisis beberapa kali, mengacak urutan objek; kemudian rata-rata pusat-pusat klaster yang menjalankan dan masukan pusat-pusat seperti yang awal untuk satu putaran terakhir analisis.
Berikut adalah beberapa alasan umum tentang masalah fitur standardisasi dalam cluster atau analisis multivariat lainnya.
Secara khusus, (1) beberapa metode inisialisasi pusat sensitif terhadap urutan kasus; (2) bahkan ketika metode inisialisasi tidak sensitif, hasilnya mungkin kadang-kadang tergantung pada urutan pusat-pusat awal diperkenalkan ke program oleh (khususnya, ketika ada terikat, jarak yang sama dalam data); (3) yang disebut running means versi dari algoritma k-means secara alami sensitif terhadap urutan kasus (dalam versi ini - yang tidak sering digunakan selain dari pengelompokan online) - penghitungan ulang centroid dilakukan setelah setiap kasus individu ditugaskan kembali untuk cluster lain).
Tergantung pada data Anda, saya kira. Jika Anda ingin tren dalam data Anda mengelompok bersama terlepas dari besarnya, Anda harus memusatkan. misalnya. katakanlah Anda memiliki beberapa profil ekspresi gen, dan ingin melihat tren dalam ekspresi gen, maka tanpa pemusatan rata-rata, gen berekspresi rendah Anda akan berkumpul bersama dan menjauh dari gen berekspresi tinggi, terlepas dari tren. Pemusatan membuat gen (baik yang tinggi maupun yang rendah diekspresikan) dengan pola ekspresi yang mirip berkumpul bersama.