Melakukan analisis komponen utama atau analisis faktor pada data biner

Saya memiliki dataset dengan sejumlah besar jawaban Ya / Tidak. Dapatkah saya menggunakan komponen utama (PCA) atau analisis reduksi data lainnya (seperti analisis faktor) untuk tipe data ini? Mohon saran bagaimana saya melakukan ini menggunakan SPSS.

— Cathy
sumber

Apa yang membuat Anda mempertimbangkan PCA secara khusus sebagai lawan dari analisis diskriminan?

— Chris Simokat

Lihat juga: stats.stackexchange.com/a/186026/3277

— ttnphns

Pertanyaan variabel dikotomis atau biner dalam PCA atau analisis Faktor adalah abadi. Ada pendapat kutub dari "itu ilegal" menjadi "tidak apa-apa", melalui sesuatu seperti "Anda dapat melakukannya tetapi Anda akan mendapatkan terlalu banyak faktor". Pendapat saya sendiri saat ini adalah sebagai berikut. Pertama, saya menganggap bahwa variabel yang diamati biner adalah descrete dan tidak layak memperlakukannya dengan cara apa pun sebagai kontinu. Bisakah variabel diskrit ini menimbulkan faktor atau komponen utama?

Analisis faktor (FA). Faktor menurut definisi adalah laten kontinu yang memuat variabel yang dapat diamati ( 1 , 2 ). Akibatnya, yang terakhir tidak bisa tidak kontinu (atau interval, lebih praktis berbicara) ketika cukup dimuat oleh faktor. Juga, FA, karena sifat penyesalannya yang linier, mengasumsikan bahwa sisanya - tidak dimuat - bagian, disebut uniqness, adalah kontinu baik, dan karena itu datang bahwa variabel yang dapat diamati harus kontinu bahkan ketika dimuat sedikit. Dengan demikian, variabel biner tidak dapat membuat undang-undang sendiri dalam FA. Namun, setidaknya ada dua cara: (A) Asumsikan dikotomi sebagai variabel kasar yang terus menerus mendasari dan lakukan FA dengan korelasi tetrachoric - bukan Pearson -; (B) Asumsikan bahwa faktor memuat variabel dikotomis tidak linier tetapi secara logistik dan melakukan Analisis Sifat Laten (alias Item Response Theory) alih-alih linier FA. Baca lebih lanjut .
Analisis Komponen Utama (PCA). Meskipun memiliki banyak kesamaan dengan FA, PCA bukanlah pemodelan tetapi hanya metode meringkas. Komponen tidak memuat variabel dalam pengertian konseptual yang sama dengan faktor memuat variabel. Dalam PCA, komponen memuat variabel dan variabel memuat komponen. Simetri ini karena PCA semata-mata hanyalah rotasi variabel-sumbu di ruang angkasa. Variabel biner tidak akan memberikan kontinuitas sejati untuk komponen dengan dirinya sendiri - karena mereka tidak kontinu, tetapi kontinuitas semu dapat disediakan oleh sudut rotasi PCA yang dapat muncul. Jadi dalam PCA, dan berbeda dengan FA, Anda bisa mendapatkan dimensi yang tampaknya berkelanjutan (sumbu yang diputar) dengan variabel biner murni (sumbu yang tidak diputar) - sudut adalah penyebab kontinuitas $^1$ .

Masih bisa diperdebatkan apakah sah untuk menghitung mean untuk variabel biner (jika Anda menganggapnya sebagai fitur yang benar-benar kategorikal). Biasanya PCA dilakukan pada kovariansi atau korelasi, yang menyiratkan menempatkan titik pivot rotasi PCA dalam (1) centroid (rata-rata aritmatika). Untuk data biner, masuk akal untuk mempertimbangkan, selain itu, yang lain dan lebih alami untuk lokasi data biner untuk titik pivot tersebut, atau asal: (2) titik tanpa atribut (0,0)(jika Anda memperlakukan variabel Anda sebagai biner "ordinal" ), ( 3) Titik medoid L1 atau Manhattan, (4) titik mode multivariat . $^2$

Beberapa pertanyaan terkait tentang FA atau PCA data biner: 1 , 2 , 3 , 4 , 5 , 6 . Jawaban di sana berpotensi mengungkapkan pendapat yang berbeda dari pendapat saya.

$^1$ Skor komponen yang dihitung dalam PCA data biner, seperti skor objek yang dihitung dalam MCA (analisis korespondensi berganda) dari data nominal, hanya koordinat fraksional untuk data granular dalam pemetaan ruang Euclidean yang halus: ini tidak memungkinkan kami untuk menyimpulkan bahwa data kategori telah memperoleh pengukuran skala otentik melalui PCA biasa. Untuk memiliki nilai skala yang benar-benar, variabel harus merupakan sifat skala sejak awal, pada input, atau mereka harus secara khusus dikuantifikasi atau diasumsikan telah dikalahkan ( lihat ). Tetapi dalam PCA atau MCA klasik, ruang untuk "kontinuitas" muncul kemudian pada tingkat statistik ringkasan (seperti matriks asosiasi atau frekuensi) karena kemampuan menghitungnya mirip dengan kemampuan mengukur, keduanya "kuantitatif". Dan untuk ituentitas level - untuk variabel sebagai titik atau kategori sebagai titik - koordinatnya dalam ruang sumbu utama memang benar-benar nilai skala. Tetapi tidak untuk titik data (kasus data) data biner, - "skor" mereka adalah nilai kontinu semu : bukan ukuran intrinsik, hanya beberapa koordinat overlay.

$^2$ Demonstrasi berbagai versi PCA dengan data biner tergantung pada lokasi asal rotasi. PCA linier dapat diterapkan pada matriks asosiasi tipe-SSCP ; itu adalah pilihan Anda di mana untuk meletakkan asal dan apakah skala besaran (elemen diagonal matriks) ke nilai yang sama (katakanlah, ) atau tidak. PCA mengasumsikan bahwa matriks adalah tipe SSCP dan memaksimalkan, oleh komponen utama, penyimpangan SS dari asalnya . Tentu saja, untuk data biner (yang dibatasi) penyimpangan SS hanya bergantung pada frekuensi yang diamati dalam arah ini atau itu di luar asal; namun itu juga tergantung di mana kita menemukan asal. $1$

Contoh data biner (hanya kasus sederhana dari dua variabel):

Scatterplots di bawah ini menampilkan titik data yang sedikit jittered (untuk membuat frekuensi) dan menunjukkan sumbu komponen utama sebagai garis diagonal yang mengandung skor komponen [skor tersebut, menurut klaim saya adalah nilai kontinu semu ]. Plot kiri pada setiap gambar menunjukkan PCA berdasarkan penyimpangan "mentah" dari asal, sedangkan plot kanan menunjukkan PCA berdasarkan penyimpangan skala (diagonal = unit) darinya.

1) PCA tradisional menempatkan (0,0)asal ke dalam mean data (centroid). Untuk data biner, berarti bukan nilai data yang mungkin. Namun, itu adalah pusat gravitasi fisik. PCA memaksimalkan variabilitas tentang hal itu.

(Jangan lupa juga, bahwa dalam mean dan varians biner varians secara ketat diikat bersama, mereka, sehingga, untuk mengatakan, "satu hal." Standarisasi / penskalaan variabel biner, yaitu, melakukan PCA berdasarkan korelasi bukan kovarian, di contoh saat ini, akan berarti bahwa Anda menghambat variabel yang lebih seimbang - memiliki varian yang lebih besar - untuk mempengaruhi PCA lebih besar daripada variabel yang lebih condong.)

2) Anda dapat melakukan PCA dalam data noncentered, yaitu membiarkan asal (0,0)pergi ke lokasi (0,0). Ini adalah PCA pada MSCP ( X'X/n) matrix atau pada cosine similarity matrix. PCA memaksimalkan protuberability dari status tanpa atribut.

3) Anda dapat membiarkan titik asal (0,0)terletak pada titik data dari jumlah terkecil jarak Manhattan dari titik tersebut ke semua titik data lainnya - L1 medoid. Medoid, umumnya, dipahami sebagai titik data paling "representatif" atau "khas". Oleh karena itu, PCA akan memaksimalkan atipikalitas (selain frekuensi). Dalam data kami, L1 medoid jatuh pada (1,0)koordinat asli.

4) Atau letakkan titik asal (0,0)pada koordinat data di mana frekuensi adalah mode multivarian tertinggi. Ini adalah (1,1)sel data dalam contoh kita. PCA akan memaksimalkan (didorong oleh) mode junior.

5) Dalam tubuh jawaban disebutkan bahwa korelasi tetrachoric adalah hal yang baik untuk melakukan analisis faktor, untuk variabel biner. Hal yang sama dapat dikatakan tentang PCA: Anda dapat melakukan PCA berdasarkan korelasi tetrachoric . Namun, itu berarti Anda mengandaikan variabel kontinu yang mendasarinya dalam variabel biner.

— ttnphns
sumber

Tentang hubungan antara FA pada item biner dan model IRT (1- dan 2-PL), berikut adalah dua artikel yang mungkin menarik: Takane & de Leeuw, Tentang hubungan antara teori respons item dan analisis faktor dari variabel diskrit , Psychometrika ( 1987) 52 (3): 393; dan yang lebih baru, Kamata & Bauer, Catatan tentang Hubungan Antara Factor Analytic dan Item Response Theory Model , SEM (2008) 15: 136.

— chl