Saya harus mengurangi jumlah variabel untuk melakukan analisis cluster. Variabel saya sangat berkorelasi, jadi saya berpikir untuk melakukan Analisis Faktor PCA (analisis komponen utama). Namun, jika saya menggunakan skor yang dihasilkan, cluster saya tidak terlalu benar (dibandingkan dengan klasifikasi sebelumnya dalam literatur).
Pertanyaan:
Dapatkah saya menggunakan matriks rotasi untuk memilih variabel dengan beban terbesar untuk setiap komponen / faktor dan hanya menggunakan variabel ini untuk pengelompokan saya?
Referensi bibliografi apa pun juga akan sangat membantu.
Memperbarui:
Beberapa klarifikasi:
Tujuan saya: Saya harus menjalankan analisis cluster dengan algoritma dua langkah oleh SPSS, tetapi variabel saya tidak independen, jadi saya berpikir untuk membuang beberapa di antaranya.
Dataset saya: Saya sedang mengerjakan 15 parameter skalar (variabel saya) dari 100.000 kasus. Beberapa variabel sangat berkorelasi ( Pearson)
Keraguan saya: Karena saya hanya perlu variabel independen, saya berpikir untuk menjalankan Analisis Komponen Utama (maaf: saya salah berbicara tentang Analisis Faktor dalam pertanyaan awal saya, kesalahan saya) dan hanya memilih variabel dengan pemuatan terbesar untuk setiap komponen. Saya tahu bahwa proses PCA menyajikan beberapa langkah sewenang-wenang, tetapi saya menemukan bahwa pemilihan ini sebenarnya mirip dengan " metode B4 " yang diusulkan oleh IT Jolliffe (1972 & 2002) untuk memilih variabel dan disarankan juga oleh JR King & DA Jackson pada 1999 .
Jadi saya berpikir untuk memilih dengan cara ini beberapa sub-kelompok variabel independen. Saya kemudian akan menggunakan grup untuk menjalankan analisis kluster yang berbeda dan saya akan membandingkan hasilnya.