Bagaimana Analisis Faktor menjelaskan kovarians sementara PCA menjelaskan varians?

Berikut adalah kutipan dari buku "Pengenalan Pola dan Pembelajaran Mesin" Bishop, bagian 12.2.4 "Analisis Faktor":

masukkan deskripsi gambar di sini

Menurut bagian disorot, analisis faktor menangkap kovarians antara variabel dalam matriks $W$ . Saya bertanya-tanya BAGAIMANA ?

Inilah bagaimana saya memahaminya. Say $x$ adalah variabel $p$ dimensi yang diamati, $W$ adalah matriks pemuatan faktor, dan $z$ adalah vektor skor faktor. Maka kita memiliki

x = μ + W z + ϵ,

$x=\mu+Wz+\epsilon,$ yaitu

\begin{aligned} (\begin{matrix} x_{1} \\ ⋮ \\ x_{p} \end{matrix}) = (\begin{matrix} μ_{1} \\ ⋮ \\ μ_{p} \end{matrix}) + (\begin{matrix} | & | \\ w_{1} & \dots & w_{m} \\ | & | \end{matrix}) (\begin{matrix} z_{1} \\ ⋮ \\ z_{m} \end{matrix}) + ϵ, \end{aligned}

$\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}$ dan setiap kolom di

W

$W$ adalah faktor yang memuat vektor

w_{i} = (\begin{matrix} w_{i 1} \\ ⋮ \\ w_{i p} \end{matrix}) .

$w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.$ Di sini seperti yang saya tulis,

W

$W$ memilikikolom

m

$m$ berarti adafaktor

m

$m$ yang dipertimbangkan.

Sekarang inilah intinya, menurut bagian yang disorot, saya pikir memuat di setiap kolom $w_i$ menjelaskan kovarian dalam data yang diamati, kan?

Sebagai contoh, mari kita lihat vektor pemuatan pertama , untuk , jika , dan , maka saya akan mengatakan dan sangat berkorelasi, sedangkan tampaknya berkorelasi dengan mereka , aku benar? $w_1$ $1\le i,j,k\le p$ $w_{1i}=10$ $w_{1j}=11$ $w_{1k}=0.1$ $x_i$ $x_j$ $x_k$

Dan jika ini adalah bagaimana analisis faktor menjelaskan kovarians antara fitur yang diamati, maka saya akan mengatakan PCA juga menjelaskan kovarians, bukan?

pca factor-analysis geometry

— alpukat
sumber

Karena plot @ ttnphns merujuk pada representasi ruang subjek , berikut adalah salah satu tutorial tentang ruang variabel dan ruang subjek: BTW, saya tidak tahu tentang plot ruang subjek sebelumnya, sekarang saya memahaminya dan berikut adalah salah satu tutorial tentang hal itu: amstat.org/ publikasi / jse / v10n1 / yu / biplot.html . ;-)

— alpukat

Saya akan berkomentar juga bahwa plot pemuatan yang menunjukkan pemuatan sebenarnya adalah ruang subjek. Menampilkan ruang variabel dan subjek dalam satu adalah biplot. Beberapa gambar menunjukkannya stats.stackexchange.com/a/50610/3277 .

— ttnphns

Berikut adalah pertanyaan tentang apa itu "varian umum" dan "varian bersama" secara terminologis: stats.stackexchange.com/q/208175/3277 .

— ttnphns

Jawaban:

Perbedaan antara analisis komponen Utama dan analisis Faktor dibahas dalam banyak buku teks dan artikel tentang teknik multivariat. Anda dapat menemukan utas lengkap , dan yang lebih baru , dan jawaban aneh, di situs ini juga.

Saya tidak akan membuatnya rinci. Saya sudah memberikan jawaban yang ringkas dan yang lebih panjang dan ingin mengklarifikasi dengan sepasang gambar.

Representasi grafis

Gambar di bawah ini menjelaskan PCA . (Ini dipinjam dari sini di mana PCA dibandingkan dengan regresi Linear dan korelasi Canonical. Gambar adalah representasi vektor dari variabel dalam ruang subjek ; untuk memahami apa itu Anda mungkin ingin membaca paragraf ke-2 di sana.)

enter image description here

Konfigurasi PCA pada gambar ini dijelaskan di sana . Saya akan mengulangi hal-hal yang paling pokok. Komponen utama $P_1$ dan $P_2$ terletak di ruang yang sama yang direntang oleh variabel $X_1$ dan $X_2$ , "bidang X". Panjang kuadrat dari masing-masing empat vektor adalah variansnya. Kovarians antara $X_1$ dan $X_2$ adalah $cov_{12}= |X_1||X_2|r$ , dimana $r$ sama dengan cosinus sudut antara vektor-vektornya.

Proyeksi (koordinat) variabel pada komponen, $a$ , adalah pembebanan komponen pada variabel: pembebanan adalah koefisien regresi dalam kombinasi linier variabel pemodelan oleh komponen standar . "Standar" - karena informasi tentang varian komponen sudah diserap dalam pemuatan (ingat, pemuatan adalah vektor eigen yang dinormalisasi ke masing-masing nilai eigen). Dan karena itu, dan fakta bahwa komponen tidak berkorelasi, pemuatan adalah kovarian antara variabel dan komponen.

Menggunakan PCA untuk dimensi / tujuan reduksi data memaksa kita untuk mempertahankan hanya $P_1$ dan menganggap $P_2$ sebagai sisanya, atau kesalahan. $a_{11}^2+a_{21}^2= |P_1|^2$ adalah varians yang ditangkap (dijelaskan) oleh $P_1$ .

Gambar di bawah ini menunjukkan analisis Faktor yang dilakukan pada variabel yang sama $X_1$ dan $X_2$ dengan yang kami lakukan PCA di atas. (Saya akan berbicara tentang model faktor umum , karena ada yang lain: model faktor alfa, model faktor gambar.) Smiley sun membantu dengan pencahayaan.

Faktor umum adalah $F$ . Ini adalah apa yang analog dengan komponen utama $P_1$ atas. Bisakah Anda melihat perbedaan antara keduanya? Ya, jelas: faktornya tidak terletak pada ruang variabel ' pesawat X ".

Bagaimana cara mendapatkan faktor itu dengan satu jari, yaitu melakukan analisis faktor? Mari mencoba. Pada gambar sebelumnya, kaitkan ujung panah $P_1$ dengan ujung kuku Anda dan tarik menjauh dari "pesawat X", sambil memvisualisasikan bagaimana dua pesawat baru muncul, "pesawat U1" dan "pesawat U2"; ini menghubungkan vektor terkait dan dua vektor variabel. Kedua pesawat membentuk tudung, X1 - F - X2, di atas "pesawat X".

enter image description here

Lanjutkan menarik sambil merenungkan kap dan berhenti ketika "pesawat U1" dan "pesawat U2" membentuk 90 derajat di antara keduanya. Siap, analisis faktor dilakukan. Ya, tapi belum optimal. Untuk melakukannya dengan benar, seperti halnya paket, ulangi seluruh latihan menarik panah, sekarang tambahkan ayunan kecil kiri-kanan jari Anda saat Anda menarik. Dengan melakukannya, cari posisi panah ketika jumlah proyeksi kuadrat dari kedua variabel ke atasnya dimaksimalkan , saat Anda mencapai sudut 90 derajat. Berhenti. Anda melakukan analisis faktor, ditemukan posisi faktor umum $F$ .

Sekali lagi untuk berkomentar, tidak seperti komponen utama $P_1$ , faktor $F$ tidak termasuk dalam ruang variabel "bidang X". Oleh karena itu itu bukan fungsi dari variabel (komponen utama, dan Anda dapat memastikan dari dua gambar teratas di sini bahwa PCA pada dasarnya dua arah: memprediksi variabel dengan komponen dan sebaliknya). Analisis faktor dengan demikian bukan metode deskripsi / penyederhanaan, seperti PCA, itu adalah metode pemodelan dimana faktor laten steere variabel yang diamati, satu arah.

Beban $a$ 's dari faktor pada variabel seperti beban di PCA; mereka adalah kovarian dan mereka adalah koefisien pemodelan variabel oleh faktor (standar). $a_{1}^2+a_{2}^2= |F|^2$ adalah varians ditangkap (dijelaskan) oleh $F$ . Faktor itu ditemukan untuk memaksimalkan kuantitas ini - seolah-olah komponen utama. Namun, varians yang dijelaskan itu tidak lebih varians kotor variabel , - sebaliknya, itu adalah varians mereka yang dengannya mereka saling bervariasi (berkorelasi). Kenapa begitu?

Kembali ke foto. Kami mengekstraksi $F$ bawah dua persyaratan. Salah satunya adalah jumlah maksimal pemuatan kuadrat yang baru saja disebutkan. Yang lainnya adalah pembuatan dua bidang tegak lurus, "pesawat U1" yang berisi $F$ dan $X_1$ , dan "pesawat U2" yang berisi $F$ dan $X_2$ . Dengan cara ini masing-masing variabel X muncul terurai. $X_1$ itu didekomposisi menjadi variabel $F$ dan $U_1$ , saling orthogonal; $X_2$ juga didekomposisi menjadi variabel $F$ dan $U_2$ , juga ortogonal. Dan $U_1$ bersifat ortogonal ke $U_2$ . Kita tahu apa itu $F$ - faktor umum . $U$ disebut faktor unik . Setiap variabel memiliki faktor uniknya. Artinya adalah sebagai berikut. $U_1$ belakang $X_1$ dan $U_2$ belakang $X_2$ adalah kekuatan yang menghalangi $X_1$ dan $X_2$ untuk berkorelasi. Tapi $F$ - faktor umum - adalah kekuatan di balik $X_1$ dan $X_2$ yang membuat mereka berkorelasi. Dan perbedaan yang dijelaskan ada di sepanjang faktor umum itu. Jadi, itu adalah varian collinearity murni. Itu adalah bahwa varians yang membuat $cov_{12}>0$ ; nilai sebenarnya dari $cov_{12}$ yang ditentukan oleh kecenderungan variabel terhadap faktor, oleh $a$ 's.

Sebuah variabel varians (panjang vektor kuadrat) dengan demikian terdiri dari dua bagian menguraikan aditif: keunikan $u^2$ dan komunalitas $a^2$ . Dengan dua variabel, seperti contoh kami, kami dapat mengekstraksi paling banyak satu faktor umum, jadi komunality = pemuatan tunggal kuadrat. Dengan banyak variabel kita dapat mengekstrak beberapa faktor umum, dan komunality variabel akan menjadi jumlah dari kuadratnya memuat. Pada gambar kami, ruang faktor umum adalah unidimensional (hanya $F$ itu sendiri); ketika m faktor umum ada, ruang itu adalah m-dimensi, dengan masyarakat menjadi proyeksi variabel di ruang dan beban menjadi variabel 'serta proyeksi proyeksi pada faktor-faktor yang menjangkau ruang. Varians yang dijelaskan dalam analisis faktor adalah varians dalam ruang faktor umum itu, berbeda dari ruang variabel di mana komponen menjelaskan varians. Ruang variabel di perut ruang gabungan: m common + p faktor unik.

Coba tengok pic saat ini. Ada beberapa (katakanlah, $X_1$ , $X_2$ , $X_3$ ) variabel dengan yang analisis faktor dilakukan, penggalian dua faktor umum. Faktor $F_1$ dan $F_2$ rentang ruang faktor umum "faktor pesawat". Dari banyak variabel yang dianalisis, hanya satu ( $X_1$ ) yang ditampilkan pada gambar. Analisis didekomposisi dalam dua bagian orthogonal, komunalitas $C_1$ dan faktor unik . Komunalitas terletak pada "faktor pesawat" dan koordinat pada faktor-faktor adalah beban dimana faktor umum memuat (= koordinat sendiri pada faktor-faktor). Pada gambar, komunitas dari dua variabel lainnya - proyeksi dan $U_1$ $X_1$ $X_1$ $X_2$ $X_3$ - juga ditampilkan. Akan menarik untuk berkomentar bahwa dua faktor umum dapat, dalam arti, dilihat sebagaikomponen utamadari semua orangkomunalitas"variabel". Sedangkan komponen utama yang biasa dirangkum oleh senioritas varian total multivariat variabel, faktor merangkum juga varians umum multivariat mereka. $^1$

Mengapa perlu semua kata-kata itu? Saya hanya ingin memberikan bukti pada klaim bahwa ketika Anda menguraikan masing-masing variabel berkorelasi menjadi dua bagian laten ortogonal, satu (A) mewakili tidak berkorelasi (ortogonalitas) antara variabel dan bagian lainnya (B) mewakili keterkaitan mereka (collinearity), dan Anda mengekstrak faktor hanya dari kombinasi B, Anda akan menemukan diri Anda menjelaskan kovarian berpasangan, oleh pemuatan faktor-faktor tersebut. Dalam model faktor kami, $cov_{12} \approx a_1a_2$ - faktor mengembalikankovarian individu melalui pembebanan. Dalam model PCA, tidak demikian karena PCA menjelaskan varians asli yang tidak terdekomposisi, campuran collinear + ortogonal. Kedua komponen kuat yang Anda pertahankan dan yang berikutnya yang Anda lepas adalah fusi dari bagian (A) dan (B); karenanya PCA dapat memanfaatkan, dengan memuatnya, kovarian hanya secara membabi buta dan kasar.

Daftar kontras PCA vs FA

PCA: beroperasi di ruang variabel. FA: melampaui ruang variabel.
PCA: mengambil variabilitas seperti apa adanya. FA: segmen variabilitas menjadi bagian umum dan unik.
PCA: menjelaskan varians nonsegmented, yaitu jejak matriks kovarians. FA: menjelaskan varian umum saja, maka menjelaskan (mengembalikan dengan memuat) korelasi / kovariansi, elemen off-diagonal dari matriks. (PCA menjelaskan elemen off-diagonal juga - tetapi secara sepintas lalu - hanya karena varians dibagi dalam bentuk kovarian.)
PCA: komponen adalah fungsi variabel secara teoritis linier, variabel adalah fungsi komponen secara teoritis linier. FA: variabel hanya fungsi faktor linier, hanya.
PCA: metode peringkasan empiris; itu tetap komponen m . FA: metode pemodelan teoritis ; itu sesuai dengan angka m pada data; FA dapat diuji (Confirmatory FA).
PCA: adalah MDS metrik paling sederhana , bertujuan untuk mengurangi dimensi sekaligus mempertahankan jarak secara tidak langsung antara titik data sebanyak mungkin. FA: Faktor-faktor adalah sifat laten yang penting di belakang variabel yang membuatnya berkorelasi; analisis ini bertujuan untuk mengurangi data hanya pada esensi itu saja.
PCA: rotasi / interpretasi komponen - kadang - kadang (PCA tidak cukup realistis sebagai model sifat laten). FA: rotasi / interpretasi faktor - secara rutin.
PCA: metode reduksi data saja. FA: juga metode untuk menemukan kelompok variabel koheren (ini karena variabel tidak dapat berkorelasi di luar faktor).
PCA: pemuatan dan skor tidak tergantung pada angka m komponen yang "diekstraksi". FA: memuat dan skor tergantung pada jumlah m faktor "diekstraksi".
PCA: skor komponen adalah nilai komponen yang tepat. FA: skor faktor mendekati nilai faktor sebenarnya, dan beberapa metode komputasi . Skor faktor memang terletak pada ruang variabel (seperti komponen lakukan) sedangkan faktor sebenarnya (sebagaimana diwujudkan oleh pemuatan faktor) tidak.
PCA: biasanya tidak ada asumsi. FA: asumsi korelasi parsial yang lemah; terkadang asumsi normalitas multivarian; beberapa dataset mungkin "buruk" untuk dianalisis kecuali diubah.
PCA: algoritma noniteratif; selalu sukses. FA: algoritma iteratif (biasanya); terkadang masalah tidak konvergensi; singularitas mungkin menjadi masalah.

$^1$ $X_2$ $X_3$ $U_1$ $X_1$ $X_1$ $X_2$ $X_3$ $U_1$ are the subspaces of it. It's what is different from PCA: factors do not belong to the variables' space. Each variable separately lies in its separate grey plane orthogonal to "factor plane" - just like $X_1$ shown on our pic, and that is all: if we were to add, say, $X_2$ to the plot we should have invented 4th dimension. (Just recall that all $U$ s have to be mutually orthogonal; so, to add another $U$ , you must expand dimensionality farther.)

Demikian pula seperti dalam regresi koefisien adalah koordinat, pada prediktor, baik variabel dependen (s) dan prediksi (s) ( Lihat gambar di bawah "Regresi Berganda", dan di sini juga,) di FApemuatan adalah koordinat, pada faktor-faktor, baik variabel yang diamati dan bagian latennya - komunalitas. Dan persis seperti dalam regresi fakta tidak membuat dependen dan prediktor menjadi subruang satu sama lain, - dalam FA fakta yang sama tidak membuat variabel yang diamati dan faktor laten menjadi subruang satu sama lain. Suatu faktor adalah "alien" terhadap suatu variabel dalam arti yang hampir sama dengan prediktor adalah "alien" terhadap respons dependen. Tetapi dalam PCA, itu adalah cara lain: komponen utama diturunkan dari variabel yang diamati dan terbatas pada ruang mereka.

Jadi, sekali lagi untuk mengulang: m faktor umum FA bukan subruang dari variabel input p . Sebaliknya: variabel membentuk subruang di m + p ( m faktor umum + p faktor unik) union hyperspace. Ketika dilihat dari perspektif ini (yaitu dengan faktor-faktor unik yang tertarik juga) menjadi jelas bahwa FA klasik bukanlah teknik penyusutan dimensionalitas , seperti PCA klasik, tetapi merupakan teknik ekspansi dimensionalitas . Namun demikian, kami memberikan perhatian kami hanya pada bagian kecil ( m dimensional common) dari mengasapi itu, karena bagian ini semata-mata menjelaskan korelasi.

— ttnphns
sumber

Thanks, and nice plot. Your answer (stats.stackexchange.com/a/94104/30540) helps a lot.

— avocado

(+11) Great answer and nice illustrations! (I have to wait two more days before offering the bounty.)

— chl

@chl, I'm so moved.

— ttnphns

@ttnphns: The "subject space" (your plane X) is a space with as many coordinates as there are data points in the dataset, right? So if a dataset (with two variables X1 and X2) has 100 data points, then your plane X is 100-dimensional? But then how can the factor F lie outside of it? Shouldn't all 100 data points have some values along the factor? And as there are no other data points, it would seem that the factor F has to lie in the same 100-dimensional "subject space", i.e. in the plane X? What am I missing?

— amoeba says Reinstate Monica

@amoeba, pertanyaan Anda sah dan ya, Anda melewatkan sesuatu. Lihat paragraf 1: stats.stackexchange.com/a/51471/3277 . Dimensi redundan dijatuhkan. Ruang subjek memiliki dimensi aktual dan non-redunden sebanyak ruang variabel terkait. Jadi "ruang X" adalah bidang. Jika kita menambahkan dimensi +1 (untuk mencakup F), seluruh konfigurasi akan tunggal, tidak dapat diselesaikan. F selalu memanjang keluar dari ruang variabel.

— ttnphns

"Menjelaskan kovarians" vs. menjelaskan varian

Bishop sebenarnya berarti hal yang sangat sederhana. Di bawah model analisis faktor (mis. 12.64)

p (x | z) = N (x | W z + μ, Ψ)

$p(\mathbf x|\mathbf z) = \mathcal N(\mathbf x | \mathbf W \mathbf z + \boldsymbol \mu, \boldsymbol \Psi)$ the covariance matrix of

x

$\mathbf x$ is going to be (eq. 12.65)

C = W W^{⊤} + Ψ .

$\mathbf C = \mathbf W \mathbf W^\top + \boldsymbol \Psi.$ This is essentially what factor analysis does: it finds a matrix of loadings and a diagonal matrix of uniquenesses such that the actually observed covariance matrix

Σ

$\boldsymbol \Sigma$ is as well as possible approximated by

C

$\mathbf C$ :

Σ \approx W W^{⊤} + Ψ .

$\boldsymbol \Sigma \approx \mathbf W \mathbf W^\top + \boldsymbol \Psi.$ Notice that diagonal elements of

C

$\mathbf C$ will be exactly equal to the diagonal elements of

Σ

$\boldsymbol \Sigma$ because we can always choose the diagonal matrix

Ψ

$\boldsymbol \Psi$ such that the reconstruction error on the diagonal is zero. The real challenge is then to find loadings

W

$\mathbf W$ that would well approximate the off-diagonal part of

Σ

$\boldsymbol \Sigma$ .

The off-diagonal part of $\boldsymbol \Sigma$ consists of covariances between variables; hence Bishop's claim that factor loadings are capturing the covariances. The important bit here is that factor loadings do not care at all about individual variances (diagonal of $\boldsymbol \Sigma$ ).

In contrast, PCA loadings $\widetilde {\mathbf W}$ are eigenvectors of the covariance matrix $\boldsymbol \Sigma$ scaled up by square roots of their eigenvalues. If only $m<k$ principal components are chosen, then

Σ \approx \tilde{W} {\tilde{W}}^{⊤},

$\boldsymbol \Sigma \approx \widetilde{\mathbf W} \widetilde{\mathbf W}^\top,$ meaning that PCA loadings try to reproduce the whole covariance matrix (and not only its off-diagonal part as FA). This is the main difference between PCA and FA.

Further comments

I love the drawings in @ttnphns'es answer (+1), but I would like to stress that they deal with a very special situation of two variables. If there are only two variables under consideration, the covariance matrix is $2 \times 2$ , has only one off-diagonal element and so one factor is always enough to reproduce it 100% (whereas PCA would need two components). However in general, if there are many variables (say, a dozen or more) then neither PCA nor FA with small number of components will be able to fully reproduce the covariance matrix; moreover, they will usually (even though not necessarily!) produce similar results. See my answer here for some simulations supporting this claim and for further explanations:

Is there any good reason to use PCA instead of EFA? Also, can PCA be a substitute for factor analysis?

So even though @ttnphns's drawings can make the impression that PCA and FA are very different, my opinion is that it is not the case, except with very few variables or in some other special situations.