Kebanyakan algoritma pengelompokan dan pengurangan dimensi klasik (pengelompokan hierarkis, analisis komponen utama, k-means, peta pengorganisasian sendiri ...) dirancang khusus untuk data numerik, dan data inputnya dipandang sebagai titik dalam ruang euclidean.
Ini tentu saja merupakan masalah, karena banyak pertanyaan di dunia nyata melibatkan data yang dicampur: misalnya jika kita mempelajari bus, tinggi dan panjang dan ukuran motor akan menjadi angka, tetapi kita mungkin juga tertarik dengan warna (variabel kategori: biru / merah / hijau ...) dan kelas kapasitas (variabel dipesan: kapasitas kecil / sedang / besar). Secara khusus, kami mungkin ingin mempelajari berbagai jenis variabel ini secara bersamaan.
Ada sejumlah metode untuk memperluas algos pengelompokan klasik ke data campuran, misalnya menggunakan Gower dissimilarity untuk dihubungkan ke pengelompokan hierarkis atau penskalaan multidimensi, atau metode lain yang menggunakan matriks jarak sebagai input. Atau misalnya metode ini , ekstensi SOM ke data campuran.
Pertanyaan saya adalah: mengapa kita tidak bisa menggunakan jarak euclidean saja pada variabel campuran? atau mengapa itu buruk? Mengapa kita tidak bisa begitu saja menyandikan variabel-variabel kategori, menormalkan semua variabel sehingga mereka memiliki bobot yang sama dalam jarak antara pengamatan, dan menjalankan algos yang biasa pada matriks ini?
Ini sangat mudah, dan tidak pernah dilakukan, jadi saya kira itu sangat salah, tetapi adakah yang bisa memberi tahu saya alasannya? Dan / atau beri saya beberapa referensi? Terima kasih