Apakah ada cara untuk menentukan fitur / variabel mana dari dataset yang paling penting / dominan dalam solusi k-means cluster?
Apakah ada cara untuk menentukan fitur / variabel mana dari dataset yang paling penting / dominan dalam solusi k-means cluster?
Jawaban:
Salah satu cara untuk mengukur kegunaan setiap fitur (= variabel = dimensi), dari buku Burns, Robert P., dan Richard Burns. Metode penelitian bisnis dan statistik menggunakan SPSS. Sage, 2008. ( mirror ), kegunaan didefinisikan oleh kekuatan diskriminatif fitur untuk membedakan kluster.
Kami biasanya memeriksa sarana untuk setiap klaster pada setiap dimensi menggunakan ANOVA untuk menilai betapa berbedanya cluster kami. Idealnya, kita akan memperoleh sarana yang sangat berbeda untuk sebagian besar, jika tidak semua dimensi, digunakan dalam analisis. Besarnya nilai F yang dilakukan pada setiap dimensi merupakan indikasi seberapa baik dimensi masing-masing membedakan antar cluster.
Cara lain adalah dengan menghapus fitur tertentu dan melihat bagaimana ini memengaruhi indeks kualitas internal . Tidak seperti solusi pertama, Anda harus mengulang pengelompokan untuk setiap fitur (atau serangkaian fitur) yang ingin Anda analisis.
FYI:
Saya bisa memikirkan dua kemungkinan lain yang lebih fokus pada variabel mana yang penting untuk cluster mana.
Klasifikasi multi-kelas. Pertimbangkan objek yang termasuk dalam cluster x anggota dari kelas yang sama (misalnya, kelas 1) dan objek yang termasuk anggota kelompok lain dari kelas kedua (misalnya, kelas 2). Latih classifier untuk memprediksi keanggotaan kelas (misalnya, kelas 1 vs kelas 2). Koefisien variabel classifier dapat berfungsi untuk memperkirakan pentingnya setiap variabel dalam mengelompokkan objek ke cluster x . Ulangi pendekatan ini untuk semua kluster lainnya.
Kesamaan variabel intra-cluster. Untuk setiap variabel, hitung kesamaan rata-rata setiap objek dengan centroid-nya. Variabel yang memiliki kesamaan tinggi antara centroid dan objeknya cenderung lebih penting untuk proses pengelompokan daripada variabel yang memiliki kesamaan rendah . Tentu saja, kesamaan kesamaan relatif, tetapi sekarang variabel dapat diberi peringkat berdasarkan sejauh mana mereka membantu untuk mengelompokkan objek di setiap cluster.