Mengapa jumlah varians yang dijelaskan oleh PC 1 saya sangat dekat dengan korelasi berpasangan rata-rata?


9

Apa hubungan antara komponen utama pertama dan korelasi rata-rata dalam matriks korelasi?

Sebagai contoh, dalam aplikasi empiris saya mengamati bahwa korelasi rata-rata hampir sama dengan rasio varians dari komponen utama pertama (nilai eigen pertama) dengan total varians (jumlah semua nilai eigen).

Apakah ada hubungan matematis?

Di bawah ini adalah bagan hasil empiris. Dimana korelasi adalah korelasi rata-rata antara pengembalian komponen indeks saham DAX yang dihitung selama 15 hari rolling window dan varians yang dijelaskan adalah bagian dari varians yang dijelaskan oleh komponen utama pertama, juga dihitung pada rolling window 15 hari.

Bisakah ini dijelaskan oleh model faktor risiko umum seperti CAPM?

masukkan deskripsi gambar di sini


1
Menurut Anda apa yang terjadi ketika banyak korelasi negatif atau mendekati nol? Misalnya, buat beberapa data normal bivariat dengan korelasi nol. Mengapa Anda berharap ada hubungan antara rasio varians Anda dan nol korelasi itu?
Whuber

Jawaban:


6

Saya percaya hubungan antara korelasi rata-rata dan nilai eigen PC pertama ada tetapi tidak unik. Saya bukan ahli matematika yang bisa menyimpulkannya, tetapi saya setidaknya bisa menampilkan titik awal dari mana intuisi atau pikiran seseorang bisa tumbuh.

Jika Anda menggambar variabel terstandarisasi sebagai vektor dalam ruang euclidean yang menempatkannya (dan ini adalah ruang tereduksi di mana sumbu adalah pengamatan), korelasi adalah kosinus antara dua vektor .

masukkan deskripsi gambar di sini

Dan karena vektor adalah semua satuan panjang (karena standardisasi) cosinus adalah proyeksi dari vektor satu sama lain (seperti yang ditunjukkan pada gambar kiri dengan tiga variabel). PC ke-1 adalah garis di ruang ini yang memaksimalkan jumlah proyeksi kuadrat ke atasnya, yaitu , yang disebut pemuatan; dan jumlah ini adalah nilai eigen pertama.

Jadi, ketika Anda membangun hubungan antara rata-rata dari tiga proyeksi di sebelah kiri dengan jumlah (atau rata-rata) dari tiga proyeksi kuadrat di sebelah kanan, Anda menjawab pertanyaan Anda tentang hubungan antara korelasi rata-rata dan nilai eigen.


6

Apa yang saya pikir terjadi di sini adalah bahwa semua variabel berkorelasi positif satu sama lain. Dalam hal ini, 1st PC cukup sering ternyata sangat dekat dengan rata-rata semua variabel. Jika semua variabel berkorelasi positif dengan koefisien korelasi yang persis sama , maka PC pertama tepat sebanding dengan rata-rata semua variabel, seperti yang saya jelaskan di sini: Dapatkah rata-rata semua variabel dilihat sebagai bentuk kasar PCA?c

Dalam kasus sederhana ini seseorang secara matematis dapat menurunkan hubungan yang Anda tanyakan. Pertimbangkan matriks korelasi ukuran yang terlihat seperti itu:Vektor eigen pertamanya adalah sama dengan , yang sesuai dengan rata-rata [skala] dari semua variabel. Nilai eigennya adalah . Jumlah semua nilai eigen jika tentu saja diberikan oleh jumlah semua elemen diagonal, yaitu . Jadi proporsi varian yang dijelaskan oleh PC pertama sama dengann×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Jadi dalam kasus yang paling sederhana ini proporsi varian yang dijelaskan oleh PC pertama adalah 100% berkorelasi dengan korelasi rata-rata, dan untuk besar kira-kira sama dengan itu. Itulah tepatnya yang kami lihat di plot Anda.n

Saya berharap bahwa untuk matriks besar, hasil ini kira-kira akan bertahan bahkan jika korelasinya tidak persis sama.


Memperbarui. Menggunakan angka yang diposting dalam pertanyaan, seseorang bahkan dapat mencoba memperkirakan dengan memperhatikan bahwa . Jika kita mengambil dan , maka kita mendapatkan . OP mengatakan bahwa data itu adalah "indeks saham DAX"; googling, kita melihat bahwa itu tampaknya terdiri dari variabel Bukan pertandingan yang buruk.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.