Apa yang saya pikir terjadi di sini adalah bahwa semua variabel berkorelasi positif satu sama lain. Dalam hal ini, 1st PC cukup sering ternyata sangat dekat dengan rata-rata semua variabel. Jika semua variabel berkorelasi positif dengan koefisien korelasi yang persis sama , maka PC pertama tepat sebanding dengan rata-rata semua variabel, seperti yang saya jelaskan di sini: Dapatkah rata-rata semua variabel dilihat sebagai bentuk kasar PCA?c
Dalam kasus sederhana ini seseorang secara matematis dapat menurunkan hubungan yang Anda tanyakan. Pertimbangkan matriks korelasi ukuran yang terlihat seperti itu:Vektor eigen pertamanya adalah sama dengan , yang sesuai dengan rata-rata [skala] dari semua variabel. Nilai eigennya adalah . Jumlah semua nilai eigen jika tentu saja diberikan oleh jumlah semua elemen diagonal, yaitu . Jadi proporsi varian yang dijelaskan oleh PC pertama sama dengann×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Jadi dalam kasus yang paling sederhana ini proporsi varian yang dijelaskan oleh PC pertama adalah 100% berkorelasi dengan korelasi rata-rata, dan untuk besar kira-kira sama dengan itu. Itulah tepatnya yang kami lihat di plot Anda.n
Saya berharap bahwa untuk matriks besar, hasil ini kira-kira akan bertahan bahkan jika korelasinya tidak persis sama.
Memperbarui. Menggunakan angka yang diposting dalam pertanyaan, seseorang bahkan dapat mencoba memperkirakan dengan memperhatikan bahwa . Jika kita mengambil dan , maka kita mendapatkan . OP mengatakan bahwa data itu adalah "indeks saham DAX"; googling, kita melihat bahwa itu tampaknya terdiri dari variabel Bukan pertandingan yang buruk.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530