Memplot data cluster multi dimensi secara visual

19

Saya memiliki kumpulan data dengan 16 variabel, dan setelah pengelompokan berdasarkan kmeans, saya ingin memplot dua kelompok.

Plot apa yang Anda sarankan untuk secara visual mewakili kedua klaster?

data-visualization clustering k-means

— DJ_
sumber

24

Tidak ada visualisasi yang benar. Itu tergantung pada aspek apa dari cluster yang ingin Anda lihat atau tekankan.

Ingin melihat kontribusi setiap variabel? Pertimbangkan plot koordinat paralel.

Koordinat Paralel untuk dua klaster dan sarana klaster

Apakah Anda ingin melihat bagaimana cluster didistribusikan di sepanjang komponen utama? Pertimbangkan biplot (dalam 2D atau 3D):

Cluster biplot

Apakah Anda ingin mencari outlier cluster di semua dimensi. Pertimbangkan sebar jarak dari pusat cluster 1 terhadap jarak dari pusat cluster 2. (Menurut definisi K Berarti setiap cluster akan jatuh pada satu sisi garis diagonal.)

masukkan deskripsi gambar di sini

Apakah Anda ingin melihat hubungan berpasangan dibandingkan dengan pengelompokan. Pertimbangkan matriks sebar yang diwarnai oleh kluster.

masukkan deskripsi gambar di sini

Apakah Anda ingin melihat tampilan ringkasan jarak cluster? Pertimbangkan perbandingan visualisasi distribusi apa pun, seperti histogram, plot biola, atau plot kotak.

masukkan deskripsi gambar di sini

— xan
sumber

2

Tampilan multivarian rumit, terutama dengan jumlah variabel itu. Saya punya dua saran.

Jika ada variabel tertentu yang sangat penting untuk pengelompokan, atau menarik secara substantif, Anda dapat menggunakan matriks sebar dan menampilkan hubungan bivariat antara variabel yang menarik. Anda bahkan dapat menggunakan scatterplots yang disempurnakan (misalnya menggunakan bentuk dengan ukuran yang proporsional dengan variabel ketiga) untuk menambahkan beberapa dimensi lebih

Atau, Anda bisa menggunakan pegas yang dikembangkan untuk menampilkan data dimensi tinggi yang menunjukkan pengelompokan. Catatan, saya belum pernah melihat ini dalam literatur yang saya kenal, tapi saya pikir ini adalah cara yang sangat menarik untuk menampilkan data multivarian. Kutipan berikut adalah tempat plot awalnya diusulkan.

Hoffman, PE et al. (1997) Penambangan data visual dan analitik DNA. Dalam Prosiding Visualisasi IEEE. Phoenix, AZ, hlm. 437-441.

Dan di sinilah saya awalnya menemukan menyebutkannya.

Sekarang, peringatan yang adil, saya belum dapat menemukan implementasi pegas di luar Orange. Kemudian lagi, saya belum mencari terlalu keras!

Saya berasumsi bahwa data Anda bernilai nyata dan kontinu, jika diskrit atau non-interval, seterusnya, saya tidak berpikir salah satu plot akan membantu.

— Teague
sumber

1

Ada implementasi Radviz untuk R: cran.r-project.org/web/packages/Radviz/vignettes/…

— pmav99

1

Anda dapat menggunakan fungsi fviz_cluster dari factoextra pacakge di R. Ini akan menunjukkan plot sebar data Anda dan warna titik yang berbeda akan menjadi cluster.

Untuk yang terbaik dari pemahaman saya, fungsi ini melakukan PCA dan kemudian memilih dua PC teratas dan plot yang ada di 2D.

Setiap saran / peningkatan dalam jawaban saya dipersilahkan.

— Rohit parihar
sumber