Saya memiliki dataset 50 sampel. Setiap sampel terdiri dari 11 (mungkin berkorelasi) fitur Boolean. Saya ingin beberapa cara memvisualisasikan sampel ini pada plot 2D dan memeriksa apakah ada cluster / pengelompokan di antara 50 sampel.
Saya sudah mencoba dua pendekatan berikut:
(a) Jalankan PCA pada matriks 50x11 dan pilih dua komponen utama pertama. Proyeksikan data ke plot 2D dan jalankan K-means sederhana untuk mengidentifikasi kluster.
(B) Bangun matriks kesamaan 50x50 (cosinus). Jalankan spektral clustering untuk pengurangan dimensi diikuti oleh K-means lagi.
Apa perbedaan konseptual antara melakukan PCA langsung vs menggunakan nilai eigen dari matriks kesamaan? Apakah yang satu lebih baik dari yang lain?
Juga, apakah ada cara yang lebih baik untuk memvisualisasikan data seperti itu dalam 2D? Karena ukuran sampel saya selalu terbatas hingga 50 dan set fitur saya selalu dalam kisaran 10-15, saya bersedia untuk mencoba beberapa pendekatan saat itu dan memilih yang terbaik.
Pertanyaan terkait: Mengelompokkan sampel berdasarkan pengelompokan atau PCA