Saya memiliki dataset X yang memiliki 10 dimensi, 4 di antaranya adalah nilai diskrit. Faktanya, keempat variabel diskrit tersebut adalah ordinal, yaitu nilai yang lebih tinggi menyiratkan semantik yang lebih tinggi / lebih baik.
2 dari variabel-variabel diskrit ini bersifat kategorikal dalam arti bahwa untuk masing-masing variabel ini, jarak misal dari 11 hingga 12 tidak sama dengan jarak dari 5 hingga 6. Sementara nilai variabel yang lebih tinggi menyiratkan lebih tinggi dalam kenyataan, skalanya adalah belum tentu linear (pada kenyataannya, itu tidak benar-benar didefinisikan).
Pertanyaanku adalah:
- Apakah ide yang baik untuk menerapkan algoritma pengelompokan bersama (misalnya K-Means dan kemudian Gaussian Mixture (GMM)) ke dataset ini yang berisi variabel diskrit dan kontinu?
Jika tidak:
- Haruskah saya menghapus variabel diskrit dan hanya fokus pada variabel kontinu?
- Haruskah saya lebih baik memutuskan yang berkelanjutan dan menggunakan algoritma pengelompokan untuk data diskrit?