Bisakah saya menggunakan PCA untuk melakukan pemilihan variabel untuk analisis klaster?


12

Saya harus mengurangi jumlah variabel untuk melakukan analisis cluster. Variabel saya sangat berkorelasi, jadi saya berpikir untuk melakukan Analisis Faktor PCA (analisis komponen utama). Namun, jika saya menggunakan skor yang dihasilkan, cluster saya tidak terlalu benar (dibandingkan dengan klasifikasi sebelumnya dalam literatur).

Pertanyaan:

Dapatkah saya menggunakan matriks rotasi untuk memilih variabel dengan beban terbesar untuk setiap komponen / faktor dan hanya menggunakan variabel ini untuk pengelompokan saya?

Referensi bibliografi apa pun juga akan sangat membantu.

Memperbarui:

Beberapa klarifikasi:

  • Tujuan saya: Saya harus menjalankan analisis cluster dengan algoritma dua langkah oleh SPSS, tetapi variabel saya tidak independen, jadi saya berpikir untuk membuang beberapa di antaranya.

  • Dataset saya: Saya sedang mengerjakan 15 parameter skalar (variabel saya) dari 100.000 kasus. Beberapa variabel sangat berkorelasi ( Pearson)>0.9

  • Keraguan saya: Karena saya hanya perlu variabel independen, saya berpikir untuk menjalankan Analisis Komponen Utama (maaf: saya salah berbicara tentang Analisis Faktor dalam pertanyaan awal saya, kesalahan saya) dan hanya memilih variabel dengan pemuatan terbesar untuk setiap komponen. Saya tahu bahwa proses PCA menyajikan beberapa langkah sewenang-wenang, tetapi saya menemukan bahwa pemilihan ini sebenarnya mirip dengan " metode B4 " yang diusulkan oleh IT Jolliffe (1972 & 2002) untuk memilih variabel dan disarankan juga oleh JR King & DA Jackson pada 1999 .

    Jadi saya berpikir untuk memilih dengan cara ini beberapa sub-kelompok variabel independen. Saya kemudian akan menggunakan grup untuk menjalankan analisis kluster yang berbeda dan saya akan membandingkan hasilnya.


1
Jika Anda tahu jawaban yang benar, mengapa analisis sama sekali?
Tugas

1
Pada catatan lain, mengapa Anda pikir Anda perlu mengurangi jumlah variabel untuk analisis cluster? Saya tidak berpikir salah satu alat modern analisis cluster memiliki batasan jumlah variabel input. Tentu saja jika Anda memiliki tes dengan 120 item, semuanya akan menjadi rumit dengan itu.
Tugas


Sepertinya saya bahwa penambahan aspek analisis klaster dari Q ini membuatnya cukup berbeda untuk tetap terbuka.
gung - Reinstate Monica

Anda tampaknya menerapkan kriteria yang lebih ketat pada duplikat daripada saya, @gung; mungkin Anda benar (dan pemungutan suara juga tidak berjalan baik). Namun, dalam kasus khusus ini OP bertanya tentang pemilihan fitur berbasis PCA yang paling sederhana (seperti yang dijelaskan dalam pembaruannya) yang dicakup dalam utas yang saya sarankan. Di sisi lain, StasK memposting di sini jawaban menarik yang secara khusus tentang pengelompokan ...
amuba mengatakan Reinstate Monica

Jawaban:


7

Saya akan, seperti kebiasaan saya, mundur selangkah dan bertanya apa yang sebenarnya Anda coba lakukan. Analisis faktor dirancang untuk menemukan variabel laten. Jika Anda ingin menemukan variabel laten dan mengelompokkannya, maka apa yang Anda lakukan benar. Tapi Anda mengatakan Anda hanya ingin mengurangi jumlah variabel - yang menunjukkan analisis komponen utama.

Namun, dengan salah satu dari itu, Anda harus menginterpretasikan analisis kluster pada variabel baru, dan variabel-variabel baru itu hanyalah jumlah terbobot dari yang lama.

Berapa banyak variabel yang Anda punya? Seberapa berkorelasi mereka? Jika ada terlalu banyak, dan mereka berkorelasi sangat kuat, maka Anda bisa mencari semua korelasi pada beberapa angka yang sangat tinggi, dan menghapus satu variabel secara acak dari setiap pasangan. Ini mengurangi jumlah variabel dan membiarkan variabel apa adanya.

Biarkan saya juga menggemakan @StasK tentang perlunya melakukan ini sama sekali, dan @ rolando2 tentang kegunaan menemukan sesuatu yang berbeda dari apa yang telah ditemukan sebelumnya. Seperti profesor favorit saya di sekolah pascasarjana dulu mengatakan "Jika Anda tidak terkejut, Anda belum belajar apa-apa".


1
pertama-tama, saya minta maaf: Saya sebenarnya merujuk pada analisis komponen Utama, bukan analisis faktor, kesalahan saya. Selain itu, saya sedang mencari cara untuk tidak memilih variabel terkait penyihir sewenang-wenang yang akan saya pertahankan. Saya menambahkan lebih banyak info tentang masalah di atas .. terima kasih lagi
id.

5

Cara untuk melakukan analisis faktor dan analisis kluster pada saat yang sama adalah melalui model campuran persamaan struktural. Dalam model ini, Anda mendalilkan bahwa ada model terpisah (dalam hal ini, model faktor) untuk setiap kluster. Anda perlu memiliki analisis rata-rata bersama dengan analisis kovarians, dan lebih mementingkan identifikasi dalam analisis faktor vanila biasa. Ide yang didekati dari sisi SEM muncul dalam Jedidi et. Al. (1997) , dan dari sisi pengelompokan, dalam pengelompokan berbasis model oleh Adrian Raftery . Jenis analisis ini, tampaknya, tersedia di Mplus .


1
terima kasih atas masukannya, khususnya untuk referensi, tetapi saya salah merujuk pada Analisis Faktor: Saya benar-benar memikirkan Komponen Utama untuk mengurangi variabel yang saya atur ke sub-kelompok variabel independen. kesalahan saya
id.

2

Saya tidak berpikir itu masalah "kebenaran" murni dan sederhana, tetapi apakah itu akan mencapai apa yang Anda ingin lakukan. Pendekatan yang Anda gambarkan akan berakhir dengan pengelompokan berdasarkan faktor-faktor tertentu, dengan cara yang dipermudah, karena Anda hanya akan menggunakan satu indikator untuk mewakili masing-masing faktor. Setiap indikator tersebut dianggap sebagai posisi tidak sempurna untuk faktor laten yang mendasarinya. Itu satu masalah.

Masalah lain adalah bahwa analisis faktor itu sendiri, seperti yang saya (dan banyak orang lain) telah kisahkan , penuh dengan keputusan subyektif yang melibatkan cara menangani data yang hilang, jumlah faktor untuk diekstraksi, cara mengekstrak, apakah dan bagaimana cara memutar, dan sebagainya. di. Jadi mungkin masih jauh dari jelas bahwa faktor-faktor yang mungkin telah Anda ekstrak dengan cepat, perangkat lunak-standar (seperti yang saya pikir Anda telah tersirat) adalah yang "terbaik" dalam arti apa pun.

Maka, secara keseluruhan, Anda mungkin telah menggunakan versi sederhana dari faktor-faktor yang sendiri dapat diperdebatkan sebagai cara terbaik untuk mengkarakterisasi tema yang mendasari data Anda. Saya tidak akan berharap bahwa cluster yang dihasilkan dari variabel input seperti itu akan menjadi yang paling informatif atau paling berbeda.

Pada catatan lain, tampaknya menarik bahwa Anda menganggapnya sebagai masalah memiliki keanggotaan / profil klaster yang tidak sesuai dengan apa yang telah ditemukan oleh peneliti lain. Kadang-kadang temuan yang membingungkan bisa sangat sehat!


terima kasih banyak, saya telah menambahkan lebih banyak informasi di atas untuk menentukan keraguan saya
id.

0

Apa yang bisa terjadi dalam kasus Anda adalah bahwa faktor-faktor yang diekstraksi dalam Analisis Faktor memiliki kompensasi beban positif dan negatif dari variabel asli. Ini akan mengurangi diferensiabilitas yang merupakan tujuan pengelompokan.

Bisakah Anda memecah setiap faktor yang diekstraksi menjadi 2 - satu hanya memiliki muatan positif, yang lain hanya memuat negatif?

Ganti skor faktor untuk setiap kasus untuk setiap faktor dengan skor positif dan negatif dan cobalah mengelompokkan pada set skor baru ini.

Harap sertakan satu baris jika ini cocok untuk Anda.


0

Anda bisa memindai nilai-nilai tinggi dan juga nilai-nilai rendah dan meninggalkan semua variabel dalam faktor-faktor. Dengan cara ini, tidak perlu memotong faktor-faktornya. Jika Anda membagi Faktor 1 (katakanlah) dengan cara tertentu berdasarkan tanda-tanda memuat, dalam Faktor 2, tanda-tanda mungkin sangat berbeda. Apakah Anda kemudian memotong Faktor 2 berbeda dari Faktor 1? Ini sepertinya membingungkan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.