Saya memiliki 1000+ dataset sampel dari 19 variabel. Tujuan saya adalah untuk memprediksi variabel biner berdasarkan 18 variabel lainnya (biner dan kontinu). Saya cukup yakin bahwa 6 dari variabel prediksi terkait dengan respons biner, namun, saya ingin menganalisis lebih lanjut dataset dan mencari asosiasi atau struktur lain yang mungkin saya lewatkan. Untuk melakukan ini, saya memutuskan untuk menggunakan PCA dan clustering.
Saat menjalankan PCA pada data yang dinormalisasi, ternyata 11 komponen harus disimpan untuk mempertahankan 85% dari varians. Dengan memplot pasanganplot saya mendapatkan ini:
Saya tidak yakin tentang apa yang berikutnya ... Saya tidak melihat pola yang signifikan di pca dan saya bertanya-tanya apa artinya ini dan apakah itu bisa disebabkan oleh kenyataan bahwa beberapa variabel adalah biner. Dengan menjalankan algoritma pengelompokan dengan 6 cluster saya mendapatkan hasil berikut yang bukan merupakan peningkatan meskipun beberapa gumpalan tampak menonjol (yang kuning).
Seperti yang Anda mungkin tahu, saya bukan ahli PCA, tetapi melihat beberapa tutorial dan bagaimana hal itu bisa sangat kuat untuk mendapatkan sekilas struktur dalam ruang dimensi tinggi. Dengan dataset MNIST (atau IRIS) yang terkenal itu berfungsi dengan baik. Pertanyaan saya adalah: apa yang harus saya lakukan sekarang agar lebih masuk akal dari PCA? Clustering tampaknya tidak mengambil sesuatu yang berguna, bagaimana saya bisa tahu bahwa tidak ada pola dalam PCA atau apa yang harus saya coba selanjutnya untuk menemukan pola dalam data PCA?