Pengelompokan data yang memiliki campuran variabel kontinu dan kategori


8

Saya memiliki data yang mewakili beberapa aspek perilaku manusia. Saya ingin mengelompokkannya (tanpa pengawasan) ke dalam beberapa profil perilaku. sekarang, beberapa variabel saya adalah kategorikal (dengan 2 kategori atau lebih), dan ada pula yang kontinu (sebagian besar adalah persentase). Beberapa variabel bahkan lebih kompleks karena satu kategori memiliki kontinu lebih lanjut dan yang lainnya tidak memiliki data tambahan tersebut.

Pertanyaan saya adalah bagaimana cara mengategorikan data ini. Apa pendekatan (umum?) Yang berurusan dengannya?

Saya tidak memerlukan kode atau apa pun, melainkan beberapa referensi atau arahan yang akan membantu saya lebih memahami bagaimana menghadapi tantangan ini.

Jika Anda tahu Rfungsi yang memfasilitasi analisis seperti itu, itu akan bagus, tetapi itu tidak perlu.

Terima kasih.


2
Ukuran kesamaan Gower dapat mengambil data nominal yang kontinu, ordinal, biner, nominal. Anda dapat menggunakan metode pengelompokan seperti hierarkis atau medoid, untuk menganalisis matriks kedekatan. Beberapa metode pengelompokan lainnya (misalnya klaster TwoStep) dapat mengambil variabel kontinu dan nominal sekaligus.
ttnphns

Adapun persentase atau jumlah, kadang-kadang langkah-langkah chi-square khusus dihitung untuk mereka, dan kadang-kadang jarak euclidean biasa, seperti untuk data continiuos, digunakan.
ttnphns

4
Secara keseluruhan, pengelompokan data tipe campuran adalah hal yang sulit dan mungkin hanya untuk analis data yang berpengalaman, mungkin. Di sisi lain, pengelompokan data seperti itu seringkali bukan ide yang baik sama sekali, karena ada masalah standardisasi, interpretasi dan fitur analisis kontribusi.
ttnphns

Jawaban:


1
  1. Luangkan banyak waktu untuk memahami kesamaan pada data Anda.
  2. Formalisasikan gagasan Anda tentang kesamaan dalam ukuran kesamaan khusus, yang dirancang untuk kumpulan data khusus Anda (Anda mungkin tidak akan dapat menggunakan kesamaan di luar kotak).
  3. Gunakan algoritma pengelompokan yang dapat menggunakan kesamaan sewenang-wenang, seperti pengelompokan hierarkis, DBSCAN, propagasi afinitas, atau pengelompokan spektral.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.