Apa ukuran asosiasi yang tepat dari variabel dengan komponen PCA (pada plot biplot / pemuatan)?

Saya menggunakan FactoMineRuntuk mengurangi set data pengukuran saya ke variabel laten.

Peta variabel di atas jelas bagi saya untuk menafsirkan, tapi saya bingung ketika datang ke asosiasi antara variabel dan komponen 1. Melihat peta variabel, ddpdan covsangat dekat dengan komponen di peta, dan ddpAbssedikit lebih jauh jauh. Tapi, ini bukan yang ditunjukkan oleh korelasi:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Lalu ada sin2kuantitas, yang merupakan tinggi untuk rpvi(misalnya), tetapi ukuran itu bukan variabel yang paling dekat dengan komponen pertama sama sekali.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Jadi, apa yang harus saya lihat ketika datang hubungan antara variabel dan komponen pertama?

— Fredrik Karlsson
sumber

Meskipun poin pada peta Anda (yang terlihat sebagai plot pemuatan) berantakan, saya akan mengatakan bahwa plot tersebut sesuai dengan output "korelasi" dengan baik. "Korelasi" itu adalah koordinat pada Dim1. Mereka, pembebanan, adalah korelasi antara faktor dan variabel (ketika Anda mendasarkan analisis Anda pada data terstandarisasi = pada korelasi b / b variabel).

— ttnphns

Selain jawaban di bawah ini silakan periksa yang ini dengan tautan lebih lanjut di sana.

— ttnphns

Penjelasan plot pemuatan PCA atau Analisis faktor.

Memuat plot menunjukkan variabel sebagai titik dalam ruang komponen utama (atau faktor). Koordinat variabel biasanya memuat. (Jika Anda menggabungkan plot pemuatan dengan kasus sebaran kasus data dalam ruang komponen yang sama, itu akan menjadi biplot.)

Mari kita memiliki 3 variabel entah bagaimana berkorelasi, , , . Kami memusatkan mereka dan melakukan PCA , mengekstraksi 2 komponen utama pertama dari tiga: dan . Kami menggunakan pemuatan sebagai koordinat untuk melakukan plot pemuatan di bawah ini. Memuat adalah elemen vektor eigen yang tidak standar, yaitu vektor eigen yang diberkahi oleh varian komponen yang sesuai, atau nilai eigen. $V$ $W$ $U$ $F_1$ $F_2$

enter image description here

Memuat plot adalah bidang pada gambar. Mari kita mempertimbangkan hanya variabel . Panah yang biasanya digambar pada plot pemuatan adalah apa yang diberi label sini; koordinat , adalah pemuatan dengan dan , masing-masing (harap diketahui bahwa secara terminologis lebih tepat mengatakan "komponen memuat variabel", bukan sebaliknya). $V$ $h'$ $a_1$ $a_2$ $V$ $F_1$ $F_2$

Panah adalah proyeksi, di pesawat komponen, vektor yang merupakan posisi sebenarnya dari variabel di variabel ruang yang direntang oleh , , . Panjang kuadrat vektor, , adalah varian dari . Sedangkan adalah bagian dari varian yang dijelaskan oleh dua komponen. $h'$ $h$ $V$ $V$ $W$ $U$ $h^2$ $\bf^a$ $V$ $h'^2$

Memuat, korelasi, korelasi yang diproyeksikan . Karena variabel berpusat sebelum ekstraksi komponen, adalah korelasi Pearson antara dan komponen . Itu tidak harus bingung dengan pada loading plot, yang merupakan kuantitas lain: itu adalah korelasi Pearson antara komponen dan variabel vektor di sini sebagai . Sebagai variabel, adalah prediksi oleh komponen (standar) dalam regresi linier (bandingkan dengan menggambar geometri regresi linier di sini $\cos \phi$ $V$ $F_1$ $\cos \alpha$ $F_1$ $h'$ $h'$ $V$ ) di mana pemuatan adalah koefisien regresi (ketika komponen disimpan ortogonal, seperti yang diekstraksi). $a$

Lebih lanjut. Kita mungkin ingat (trigonometri) yang . Ini dapat dipahami sebagai produk skalar antara vektor dan vektor satuan panjang : . disetel vektor satuan-varians karena tidak memiliki varians sendiri selain dari varian yang dijelaskannya (dengan jumlah ): yaitu $a_1 = h \cdot \cos \phi$ $V$ $F_1$ $h \cdot 1 \cdot \cos \phi$ $F_1$ $V$ $h'$ $F_1$ adalah diekstraksi-dari-V, W, U dan bukan entitas diundang-dari-luar. Kemudian, jelas, adalahkovariansantaradanstandar, skala-unit(untuk mengatur $a_1 = \sqrt{var_{V} \cdot var_{F_1}} \cdot r = h \cdot 1 \cdot \cos \phi$ $V$ $\bf^b$ ) komponen. Kovarians ini secara langsung sebanding dengan kovariansi antara variabel input; misalnya, kovarians antaradanakan menjadi produk dari panjang vektornya dikalikan dengan kosinus di antara mereka. $s_1=\sqrt{var_{F_1}}=1$ $F_1$ $V$ $W$

Untuk meringkas: memuat dapat dilihat sebagai kovarians antara komponen standar dan variabel yang diamati, , atau ekuivalen antara komponen standar dan dijelaskan (oleh semua komponen mendefinisikan plot) citra variabel, . Itu dapat disebut korelasi V-F1 yang diproyeksikan pada subruang komponen F1-F2. $a_1$ $h \cdot 1 \cdot \cos \phi$ $h' \cdot 1 \cdot \cos \alpha$ $\cos \alpha$

Korelasi tersebut di atas antara variabel dan komponen, , juga disebut standar atau rescaled pemuatan . Ini nyaman dalam penafsiran komponen karena berada dalam kisaran [-1,1]. $\cos \phi = a_1/h$

Hubungan dengan vektor eigen . Rescaled pemuatan harus tidak harus bingung dengan vektor eigen elemen yang - seperti yang kita tahu - adalah cosinus dari sudut antara variabel dan komponen utama. Ingat bahwa memuat adalah elemen vektor eigen yang ditingkatkan oleh nilai singular komponen (akar kuadrat dari nilai eigen). Yaitu untuk variabel plot kami: , dengan adalah st. penyimpangan (bukan tetapi asli, yaitu nilai singular) dari $\cos \phi$ $V$ $a_1= e_1s_1$ $s_1$ $1$ $F_1$ variabel laten. Maka muncullah elemen vektor eigen , bukanitu sendiri. Kebingungan di sekitar dua kata "cosinus" larut ketika kita mengingat seperti apa representasi ruang kita. Nilai vektor eigenadalahkosinusdari sudut rotasivariabel sebagai sumbu ke pr. komponen sebagai sumbu dalam ruang variabel (alias tampilan sebar),seperti di sini. Sementarapada plot pemuatan kamiadalah ukuran kesamaan cosinusantara variabel sebagai vektor dan pr. komponen sebagai ... juga .. sebagai vektor juga, jika Anda suka (meskipun itu digambarkan sebagai sumbu pada plot), - karena kami saat ini berada diruang subjek $e_1= \frac{a_1}{s_1}=\frac{h}{s_1}\cos \phi$ $\cos \phi$ $\cos \phi$ (yang memuat plot) di mana variabel berkorelasi adalah penggemar vektor - bukan sumbu ortogonal, - dan sudut vektor adalah ukuran asosiasi - dan bukan rotasi pangkalan ruang.

Sedangkan pembebanan adalah ukuran asosiasi sudut (yaitu jenis produk skalar) antara variabel dan komponen skala unit, dan pembebanan berskala kembali adalah pembebanan terstandarisasi dimana skala variabel dikurangi menjadi satuan, tetapi koefisien vektor eigen adalah pembebanan di mana komponen "overstandardized", yaitu dibawa ke skala (bukan 1); alternatifnya, ini dapat dianggap sebagai pembebanan ulang skala di mana skala variabel dibawa ke (bukan 1). $1/s$ $h/s$

Jadi, apa hubungan antara variabel dan komponen? Anda dapat memilih apa yang Anda suka. Mungkin pemuatan (kovarians dengan komponen skala unit) ; yang memuat Rescaled (= variabel-komponen korelasi); korelasi antara gambar (prediksi) dan komponen (= proyeksi korelasi ). Anda bahkan dapat memilih koefisien vektor eigen jika Anda perlu (meskipun saya bertanya-tanya apa yang mungkin menjadi alasan). Atau ciptakan ukuran Anda sendiri. $a$ $\cos \phi$ $\cos \alpha$ $e= a/s$

Nilai vektor eigen kuadrat memiliki arti kontribusi variabel ke dalam suatu pr. komponen. Pemuatan berskala kuadrat ulang memiliki arti kontribusi pr. komponen menjadi variabel.

Hubungan dengan PCA berdasarkan korelasi. Jika kita menganalisis PCA tidak hanya variabel terpusat tetapi terstandarisasi (terpusat kemudian unit-varians), maka ketiga variabel vektor (bukan proyeksi mereka di bidang) akan sama, panjang unit. Maka secara otomatis mengikuti bahwa pemuatan adalah korelasi , bukan kovarian, antara variabel dan komponen. Tetapi korelasi yang tidak akan sama dengan "memuat standar" dari gambar di atas (berdasarkan analisis variabel hanya berpusat), karena PCA variabel standar (korelasi berbasis PCA) menghasilkan berbagai komponen dari PCA variabel berpusat ( PCA berbasis covariances). Dalam PCA berbasis korelasi $\cos \phi$ karena , tetapi komponen utamabukankomponen utama yangsamaseperti yang kita dapatkan dari PCA berbasis kovarian (baca,baca). $a_1= \cos \phi$ $h=1$

Dalam analisis faktor , memuat plot pada dasarnya memiliki konsep dan interpretasi yang sama seperti pada PCA. Satu-satunya perbedaan (tetapi penting ) adalah substansi . Dalam analisis faktor, - kemudian disebut "komunalitas" dari variabel - adalah bagian dari variansnya yang dijelaskan oleh faktor-faktor umum yang bertanggung jawab secara khusus untuk korelasi antar variabel. Sementara di PCA bagian yang dijelaskan $h'$ $h'$ $h'$ adalah "campuran" kotor - sebagian merupakan korelasi dan sebagian tidak terkait antar variabel. Dengan analisis faktor, bidang pemuatan pada gambar kita akan berorientasi berbeda (sebenarnya, bahkan akan keluar dari ruang variabel 3d kita ke dimensi 4, yang tidak bisa kita gambar; bidang pemuatan tidak akan menjadi subruang dari kita Ruang 3d direntang oleh dan dua variabel lainnya), dan proyeksi akan memiliki panjang lain dan dengan sudut lain . (Perbedaan teoritis antara PCA dan analisis faktor dijelaskan secara geometris di sini melalui representasi ruang subjek dan di sini melalui representasi ruang variabel.) $V$ $h'$ $\alpha$

A membalas permintaan @Antoni Parellada dalam komentar. Ini setara apakah Anda lebih suka berbicara dalam halvariansatau dalam halsebar(SS deviasi): varians = sebar, di manaadalah ukuran sampel. Karena kita berurusan dengan satu dataset dengansama, konstanta tidak mengubah apa pun dalam rumus. Jikaadalah data (dengan variabel V, W, U berpusat), maka komposisi eigend dari matriks kovarians (A) -nya menghasilkan nilai eigen yang sama (varian komponen) dan vektor eigen sebagai komposisi eigend dari komposisi (B) matriks sebaran $\bf^{a,b}$ $/(n-1)$ $n$ $n$ $\bf X$ $\bf X'X$ diperoleh setelah pembagian awal oleh $\bf X$ faktor. Setelah itu, dalam rumus pemuatan (lihat bagian tengah jawaban),, istilahadalahst. penyimpangan $\sqrt{n-1}$ $a_1 = h \cdot s_1 \cdot \cos \phi$ $h$ di (A) tetapi root scatter (yaitu norma)in (B). Term, yang sama dengan,adalahstandar yangkomponen st. penyimpangan $\sqrt{var_{V}}$ $\Vert V \Vert$ $s_1$ $1$ $F_1$ in (A) tetapi root scatterin (B). Akhirnya,adalah korelasi yangtidak sensitifterhadap penggunaandalam perhitungannya. Jadi, kita hanyaberbicarasecara konseptual tentang varians (A) atau scatters (B), sementara nilai-nilai itu sendiri tetap sama dalam rumus di kedua contoh. $\sqrt{var_{F_1}}$ $\Vert F_1 \Vert$ $\cos \phi = r$ $n-1$

— ttnphns
sumber

Jawaban ini bagus dan memiliki banyak info, tetapi saya pikir jawaban aktual untuk pertanyaan itu terletak pada "apa arti

α

$\alpha$

— shadowtalker

@ssdecontrol, saya menambahkan baris tentang itu.

— ttnphns

Saya telah membaca posting Anda pada topik, dan saya terjebak pada bagian yang paling jelas terlihat, ketika Anda mengatakan ... "jelas,

. Karena

dan

a_{1} = \sqrt{v a r_{V} \cdot v a r_{F 1}} \cdot r = h \cdot 1 \cdot \cos ϕ

$a_1 = \sqrt{var_{V} \cdot var_{F1}} \cdot r = h \cdot 1 \cdot \cos \phi$

r = c o s ϕ

$r=cos\phi$

, berarti

\sqrt{v a r F 1} = 1

$\sqrt{var{F1}}=1$

. Namun,

\sqrt{v a r_{V}} = h

$\sqrt{var_V}=h$

, sedangkan

h = ‖ V ‖ = \sqrt{\sum x^{2}}

$h=\Vert V\Vert= \sqrt{\sum x^2}$

. Apa yang saya lewatkan?

\sqrt{v a r_{V}} = \sqrt{\frac{\sum x^{2}}{n - 1}}

$\sqrt{var_V}=\sqrt{\frac{\sum x^2}{n-1}}$

— Antoni Parellada

@AntoniParellada, silakan periksa catatan kaki.

— ttnphns

Saya membaca adendum Anda, dan itu sangat mencerahkan. Terima kasih! Tanpa memilih keluar kalimat tertentu, itu akan menjelaskan beberapa transisi dari unit-varians untuk skala norma unit

bersama jawabannya, yang sebelumnya disajikan beberapa kesulitan (untuk saya).

F_{1}

$F_1$

— Antoni Parellada