Saya mencari untuk mengelompokkan satu set data kecil (64 pengamatan dari 4 variabel interval dan satu variabel kategori tiga faktor). Sekarang, saya cukup baru dalam analisis klaster, tetapi saya sadar bahwa telah ada banyak kemajuan sejak zaman ketika hierarkis clustering atau k-means adalah satu-satunya pilihan yang tersedia. Secara khusus, nampak bahwa metode baru dari pengelompokan berbasis model tersedia yang, sebagaimana ditunjukkan oleh chl , memungkinkan penggunaan "indeks kebaikan untuk memutuskan tentang jumlah cluster atau kelas".
Namun, paket R standar untuk pengelompokan berbasis model mclust
tampaknya tidak akan cocok dengan model dengan tipe data campuran. The fpc
Model akan, tetapi memiliki kesulitan pas model, saya menduga karena sifat non-gaussian dari variabel kontinu. Haruskah saya melanjutkan dengan pendekatan berbasis model? Saya ingin terus menggunakan R jika memungkinkan. Seperti yang saya lihat, saya memiliki beberapa opsi:
- Ubah variabel kategori tiga tingkat menjadi dua variabel dummy dan gunakan
mclust
. Saya tidak yakin apakah ini akan bias hasilnya, tetapi jika tidak ini adalah pilihan saya. - Ubah variabel kontinu dan gunakan
fpc
paket. - Gunakan beberapa paket R lain yang belum saya temui.
- Buat matriks ketidaksamaan menggunakan ukuran Gower dan gunakan teknik hierarki tradisional atau relokasi.
Apakah stats.se hivemind punya saran di sini?