Metode perhitungan skor faktor / komponen
Setelah serangkaian komentar saya akhirnya memutuskan untuk mengeluarkan jawaban (berdasarkan komentar dan banyak lagi). Ini tentang menghitung skor komponen dalam PCA dan skor faktor dalam analisis faktor.
Faktor / skor komponen diberikan oleh F = X B , di mana X adalah variabel dianalisis ( berpusat jika analisis PCA / faktor didasarkan pada covariances atau z-standar jika itu didasarkan pada korelasi). B adalah matriks koefisien faktor / komponen (atau bobot) . Bagaimana bobot ini bisa diperkirakan?F^=XBXB
Notasi
-matrix dari variabel (item) korelasi atau kovariansi, mana yang dianalisis faktor / PCA.Rp x p
-matriks beban faktor / komponen. Ini mungkin memuat setelah ekstraksi (sering juga dilambangkan A ) dimana laten itu ortogonal atau bisa dibilang demikian, atau memuat setelah rotasi, ortogonal atau miring. Jika rotasimiring, itu harusmemuatpola.Pp x m
SEBUAH
-matrix korelasi antara faktor / komponen setelah rotasi miring (beban). Jika tidak ada rotasi atau rotasi orthogonal dilakukan, ini adalahmatriksidentitas.Cm x m
-matriks mengurangi direproduksi korelasi / covariances,=PCP'(=PP'untuk solusi ortogonal), mengandung communalities pada diagonal.R^p x p
= P C P′= P P′
-matriks diagonal keunikan (keunikan + komunalitas = elemen diagonal R ). Saya menggunakan "2" sebagai subskrip di sini alih-alih superskrip ( U 2 ) untuk kenyamanan keterbacaan dalam rumus.U2p x p
RU2
-matriks penuh direproduksi korelasi / covariances, = R + U 2 .R∗p x p
= R^+ U2
- pseudoinverse dari beberapa matriks M ; jika M adalah peringkat penuh, M + = ( M ′ M ) - 1 M ′ .M.+M.M.M.+= ( M′M )- 1M.′
- untuk beberapa persegi simetris matriks M penggalangan untuk p o w e r jumlah untuk eigendecomposing H K H ' = M , meningkatkan nilai eigen untuk kekuatan dan menyusun kembali: M p o w e r = H K p o w e r H ′ .M.p o w e rM.p o w e rH K H′= MM.p o w e r= H Kp o w e rH′
Metode kasar skor faktor / komponen komputasi
Pendekatan populer / tradisional ini, kadang-kadang disebut Cattell's, hanya rata-rata (atau meringkas) nilai-nilai item yang dimuat oleh faktor yang sama. Secara matematis, itu dilakukan untuk menetapkan bobot dalam perhitungan skor F = X B . Ada tiga versi utama dari pendekatan: 1) Gunakan pemuatan sebagaimana adanya; 2) Dikotomikan (1 = dimuat, 0 = tidak dimuat); 3) Gunakan pemuatan sebagaimana adanya tetapi pemuatan tanpa muatan lebih kecil dari batas tertentu.B = PF^= X B
Seringkali dengan pendekatan ini ketika item berada pada unit skala yang sama, nilai digunakan hanya mentah; meskipun tidak mematahkan logika anjak piutang orang akan lebih baik menggunakan X saat memasuki anjak - standar (= analisis korelasi) atau terpusat (= analisis kovarian).XX
Kerugian utama dari metode kasar untuk menghitung faktor / skor komponen dalam pandangan saya adalah bahwa hal itu tidak memperhitungkan korelasi antara item yang dimuat. Jika item yang dimuat oleh faktor berkorelasi erat dan satu dimuat lebih kuat dari yang lainnya, yang terakhir dapat dianggap sebagai duplikat yang lebih muda dan bobotnya dapat dikurangi. Metode yang disempurnakan melakukannya, tetapi metode kasar tidak bisa.
Skor kasar tentu saja mudah untuk dihitung karena tidak diperlukan inversi matriks. Keuntungan dari metode kasar (menjelaskan mengapa masih banyak digunakan terlepas dari ketersediaan komputer) adalah bahwa ia memberikan skor yang lebih stabil dari sampel ke sampel ketika pengambilan sampel tidak ideal (dalam arti keterwakilan dan ukuran) atau item untuk analisis tidak dipilih dengan baik. Untuk mengutip satu makalah, "Metode skor penjumlahan mungkin paling diinginkan ketika skala yang digunakan untuk mengumpulkan data asli tidak diuji dan dieksplorasi, dengan sedikit atau tidak ada bukti reliabilitas atau validitas". Selain itu, tidak perlu memahami "faktor" sebagai esensi laten univariat, sebagaimana model analisis faktor mengharuskannya ( lihat , lihat). Anda dapat, misalnya, konsep faktor sebagai kumpulan fenomena - maka untuk menjumlahkan nilai item masuk akal.
Metode skor faktor / komponen komputasi yang disempurnakan
Metode-metode ini adalah apa yang dilakukan paket faktor analitik. Mereka memperkirakan dengan berbagai metode. Sementara pembebanan A atau P adalah koefisien kombinasi linear untuk memprediksi variabel berdasarkan faktor / komponen, B adalah koefisien untuk menghitung skor faktor / komponen di luar variabel.BSEBUAHPB
Skor yang dihitung melalui diskalakan: mereka memiliki varian yang sama dengan atau mendekati 1 (terstandarisasi atau hampir terstandarisasi) - bukan varian faktor yang sebenarnya (yang sama dengan jumlah beban struktur kuadrat, lihat Catatan Kaki 3 di sini ). Jadi, ketika Anda perlu memberikan skor faktor dengan varians faktor sebenarnya, gandakan skor (setelah distandarisasi menjadi st.dev. 1) dengan akar kuadrat dari varians itu.B
Anda dapat menyimpan dari analisis yang dilakukan, untuk dapat menghitung skor untuk pengamatan X baru yang akan datang . Juga, B dapat digunakan untuk item berat yang merupakan skala kuesioner ketika skala dikembangkan dari atau divalidasi oleh analisis faktor. (Kuadrat) koefisien B dapat diartikan sebagai kontribusi item ke faktor. Koefisien dapat distandarisasi seperti koefisien regresi terstandarisasi β = b σ i t e mBXBB (di manaσfactor=1) untuk membandingkan kontribusi dari item dengan varians yang berbeda.β=bσitemσfactorσfactor=1
Lihat contoh yang menunjukkan perhitungan yang dilakukan dalam PCA dan FA, termasuk perhitungan skor dari matriks koefisien skor.
Penjelasan geometris tentang pemuatan (sebagai koordinat tegak lurus) dan koefisien skor b (koordinat miring) dalam pengaturan PCA disajikan pada dua gambar pertama di sini .ab
Sekarang dengan metode yang disempurnakan.
Metode
Perhitungan dalam PCAB
Ketika pemuatan komponen diekstraksi tetapi tidak diputar, , di mana L adalah matriks diagonal yang terdiri dari nilai eigen; rumus ini sama dengan membagi setiap kolom A dengan nilai eigen masing-masing - varians komponen.B=AL−1Lm
A
Setara, . Formula ini berlaku juga untuk komponen (pemuatan) yang diputar, ortogonal (seperti varimax), atau miring.B=(P+)′
Beberapa metode yang digunakan dalam analisis faktor (lihat di bawah), jika diterapkan dalam PCA mengembalikan hasil yang sama.
Skor komponen yang dihitung memiliki varian 1 dan mereka adalah nilai komponen standar yang benar .
Apa yang dalam analisis data statistik disebut matriks koefisien komponen utama , dan jika dihitung dari matriks pemuatan yang lengkap dan tidak terputar, dalam literatur pembelajaran mesin sering diberi label matriks pemutih (berbasis PCA) , dan komponen utama yang distandarisasi adalah diakui sebagai data "diputihkan".Bp x p
Perhitungan dalam analisis Faktor umumB
Tidak seperti nilai komponen, faktor skor yang tidak pernah tepat ; mereka hanya perkiraan untuk nilai benar tidak diketahui dari faktor-faktor. Ini karena kita tidak tahu nilai-nilai komunalitas atau keunikan pada tingkat kasus, - karena faktor, tidak seperti komponen, adalah variabel eksternal yang terpisah dari yang nyata, dan memiliki distribusinya sendiri, tidak diketahui oleh kita. Yang menjadi penyebab ketidakpastian skor faktor tersebut . Perhatikan bahwa masalah ketidakpastian ditentukan secara logis tidak tergantung pada kualitas solusi faktor: seberapa banyak faktor itu benar (sesuai dengan laten yang menghasilkan data dalam populasi) adalah masalah lain daripada seberapa banyak skor responden dari suatu faktor benar (perkiraan akurat) dari faktor yang diekstraksi).F
Karena skor faktor adalah perkiraan, metode alternatif untuk menghitungnya ada dan bersaing.
Regresi atau metode Thurstone atau Thompson untuk memperkirakan skor faktor diberikan oleh B=R−1PC=R−1S , di mana adalah matriks beban struktur (untuk solusi faktor ortogonal, kita tahu A = P = S ). Fondasi metode regresi adalah dalam catatan kaki 1 .S=PCA=P=S1
Catatan. Rumus untuk ini dapat digunakan juga dengan PCA: ini akan memberikan, dalam PCA, hasil yang sama dengan rumus yang dikutip pada bagian sebelumnya.B
Dalam FA (tidak PCA), nilai faktor regressionally dihitung akan muncul tidak cukup "standar" - akan memiliki varians tidak 1, tapi sama dengan SSregr(n−1) dari regresi skor ini oleh variabel. Nilai ini dapat diartikan sebagai tingkat penentuan suatu faktor (nilai sebenarnya yang tidak diketahui) oleh variabel - R-square dari prediksi faktor nyata oleh mereka, dan metode regresi memaksimalkannya, - "validitas" dihitung skor. Gambar 2 menunjukkan geometri. (Harap dicatat bahwa S S r e g r2 akan sama dengan varians skor untuk metode yang dimurnikan, namun hanya untuk metode regresi kuantitas akan sama dengan proporsi penentuan true f. nilai oleh f. skor.)SSregr(n−1)
Sebagai varian dari metode regresi, seseorang dapat menggunakan sebagai ganti R dalam formula. Dibutuhkan dengan alasan bahwa dalam analisis faktor yang baik R dan R ∗ sangat mirip. Namun, ketika mereka tidak, terutama ketika jumlah faktor kurang dari jumlah populasi yang sebenarnya, metode ini menghasilkan bias yang kuat dalam skor. Dan Anda sebaiknya tidak menggunakan metode "regresi R yang direproduksi" ini dengan PCA.R∗RRR∗m
Metode PCA , juga dikenal sebagai pendekatan variabel Horst (Mulaik) atau ideal (ized) (Harman). Ini adalah metode regresi dengan R di tempat RR^R dalam formula nya. Dapat dengan mudah ditunjukkan bahwa rumus kemudian direduksi menjadi (dan jadi ya, kita sebenarnya tidak perlu tahu C dengan itu). Skor faktor dihitung seolah-olah skor komponen.B=(P+)′C
[Label "diidealkan variabel" berasal dari fakta bahwa sejak menurut faktor atau komponen Model bagian prediksi variabel X = F P ' , maka F = ( P + ) ' X , tapi kami mengganti X untuk diketahui (ideal) X , untuk memperkirakan F sebagai nilai F ; oleh karena itu kami "mengidealkan" X. ]X^= FP′F = ( P+)′X^XX^FF^X
Harap dicatat bahwa metode ini tidak melewatkan skor komponen PCA untuk skor faktor, karena beban yang digunakan bukan beban PCA tetapi analisis faktor '; hanya saja pendekatan perhitungan untuk skor mencerminkan hal itu di PCA.
Metode Bartlett . Di sini, . Metode ini berupaya meminimalkan, untuk setiap responden, varince lintas faktor unik ("kesalahan"). Variansi dari skor faktor umum yang dihasilkan tidak akan sama dan mungkin melebihi 1.B′= ( P′U- 12P )-1P′U-12p
Metode Anderson-Rubin dikembangkan sebagai modifikasi dari sebelumnya. . Variansi skor akan tepat 1. Namun, metode ini hanya untuk solusi faktor ortogonal (untuk solusi miring akan menghasilkan skor ortogonal yang masih).B′= ( P′U- 12R U- 12P )- 1 / 2P′U- 12
Metode McDonald-Anderson-Rubin . McDonald memperluas Anderson-Rubin ke solusi faktor miring juga. Jadi yang ini lebih umum. Dengan faktor ortogonal, sebenarnya berkurang menjadi Anderson-Rubin. Beberapa paket mungkin menggunakan metode McDonald's sambil menyebutnya "Anderson-Rubin". Rumusnya adalah: , di mana G dan H diperoleh di svd ( R 1 / 2 U -B = R- 1 / 2G H′C1 / 2GH . (Gunakan hanyakolompertamadalam G , tentu saja.)svd ( R1 / 2U- 12P C1 / 2) = G Δ H′m
G
Metode hijau . Menggunakan rumus yang sama seperti McDonald-Anderson-Rubin, tapi dan H adalah sebagai: svd ( R - 1 / 2 P C 3 / 2 ) = G Δ H ' . (Gunakan hanya kolom pertama dalam G , tentu saja.) Metode Green tidak menggunakan informasi komunitas (atau keunikan). Ini mendekati dan konvergen ke metode McDonald-Anderson-Rubin sebagai komunitas aktual variabel menjadi lebih dan lebih sama. Dan jika diterapkan pada pemuatan PCA, Green mengembalikan skor komponen, seperti metode PCA asli.GHsvd ( R- 1 / 2P C3 / 2) = G Δ H′m
G
Metode Krijnen et al . Metode ini adalah generalisasi yang mengakomodasi kedua sebelumnya dengan formula tunggal. Mungkin tidak menambahkan fitur baru atau penting baru, jadi saya tidak mempertimbangkannya.
Perbandingan antara metode yang disempurnakan .
Metode regresi memaksimalkan korelasi antara skor faktor dan nilai sebenarnya yang tidak diketahui dari faktor tersebut (yaitu memaksimalkan validitas statistik ), tetapi skor tersebut agak bias dan mereka agak salah berkorelasi antara faktor-faktor (misalnya, mereka berkorelasi bahkan ketika faktor-faktor dalam suatu solusi ortogonal). Ini adalah estimasi kuadrat-terkecil.
Metode PCA juga kuadrat terkecil, tetapi dengan validitas statistik yang lebih sedikit. Mereka lebih cepat untuk menghitung; mereka tidak sering digunakan dalam analisis faktor saat ini, karena komputer. (Dalam PCA , metode ini asli dan optimal.)
Skor Bartlett adalah estimasi yang tidak bias dari nilai faktor sebenarnya. Skor dihitung untuk berkorelasi secara akurat dengan nilai-nilai faktor-faktor lain yang benar dan tidak diketahui (misalnya tidak berkorelasi dengan mereka dalam solusi ortogonal, misalnya). Namun, mereka masih dapat berkorelasi secara tidak akurat dengan skor faktor yang
dihitung untuk faktor-faktor lain. Ini adalah perkiraan maksimum (di bawah normalitas multivarian dari asumsi ).X
Skor Anderson-Rubin / McDonald-Anderson-Rubin dan Green disebut pelestarian korelasi karena dihitung untuk berkorelasi secara akurat dengan skor faktor dari faktor lain. Korelasi antara skor faktor sama dengan korelasi antara faktor-faktor dalam solusi (jadi dalam solusi ortogonal, misalnya, skor akan sangat tidak berkorelasi). Tetapi skor agak bias dan validitasnya mungkin sederhana.
Periksa tabel ini juga:
[Catatan untuk pengguna SPSS: Jika Anda melakukan PCA ("komponen utama" metode ekstraksi) tetapi meminta skor faktor selain metode "Regresi", program akan mengabaikan permintaan dan akan menghitung Anda "Regresi" skor (yang tepat skor komponen).]
Referensi
Grice, James W. Komputasi dan Mengevaluasi Skor Faktor // Metode Psikologis 2001, Vol. 6, No. 4, 430-450.
DiStefano, Christine et al. Memahami dan Menggunakan Skor Faktor // Penilaian Praktis, Penelitian & Evaluasi, Vol 14, No 20
ten Berge, Jos MFet al. Beberapa hasil baru pada metode prediksi skor faktor pelestarian korelasi // Aljabar Linier dan Aplikasinya 289 (1999) 311-318.
Mulaik, Stanley A. Yayasan Analisis Faktor, Edisi 2, 2009
Harman, Harry H. Modern Factor Analysis, Edisi ke-3, 1976
Neudecker, Heinz. Tentang prediksi skor faktor-faktor yang mempertahankan kovarian tidak bias terbaik // SORT 28 (1) Januari-Juni 2004, 27-36
1F= b1X1+ b2X2s1s2F
s1= b1r11+ b2r12
s2= b1r12+ b2r22,
dengan rmenjadi kovarian antara Xs. Dalam notasi vektor:s = R b. Dalam metode regresi skor faktor komputasiF kami memperkirakan bs dari benar dikenal rdan ss.
2Gambar berikut adalah kedua gambar di sini yang digabungkan menjadi satu. Ini menunjukkan perbedaan antara faktor umum dan komponen utama. Komponen (vektor merah tipis) terletak pada ruang yang direntang oleh variabel (dua vektor biru), putih "bidang X". Faktor (vektor merah gemuk) menguasai ruang itu. Proyeksi orthogonal Factor pada bidang (vektor abu-abu tipis) adalah skor faktor yang diperkirakan secara regresi. Dengan definisi regresi linier, skor faktor adalah yang terbaik, dalam hal kuadrat terkecil, perkiraan faktor yang tersedia oleh variabel.