Ini adalah memang sesuatu. Untuk mengetahuinya, kita perlu memeriksa apa yang kita ketahui tentang korelasi itu sendiri.
Matriks korelasi dari variabel acak bernilai vektor adalah matriks varians-kovarians, atau hanya "varians," dari versi standar dari . Yaitu, masing-masing digantikan oleh versi yang ulang.X X iX=(X1,X2,…,Xp)XXi
Kovarian dan adalah harapan dari produk versi terpusat mereka. Yaitu, menulis X ′ i = X i - E [ X i ] dan X ′ j = X j - E [ X j ] , kami memilikiX jXiXjX′i=Xi−E[Xi]X′j=Xj−E[Xj]
Cov(Xi,Xj)=E[X′iX′j].
Varian X , yang akan saya tulis Var(X) , bukan angka tunggal. Ini adalah array nilai-nilai
Var(X)ij=Cov(Xi,Xj).
Cara untuk memikirkan kovarian untuk generalisasi yang dimaksudkan adalah dengan menganggapnya sebagai tensor . Itu berarti itu seluruh koleksi jumlah vij , diindeks oleh i dan j mulai dari 1 sampai p , yang nilainya berubah dalam cara yang dapat diprediksi terutama sederhana ketika X mengalami transformasi linear. Secara khusus, misalkan Y=(Y1,Y2,…,Yq) menjadi variabel acak bernilai vektor lain yang didefinisikan oleh
Ysaya= ∑j = 1halSebuahjsayaXj.
Konstanta Sebuahjsaya (sayadanjadalahindeks-jbukan kekuatan) membentukq× parrayA =( ajsaya),j = 1 , ... , hlmdani = 1 , ... , q. Linearitas harapan menyiratkan
Var( Y )saya j= Σ aksayaSebuahljVar( X )k l.
Dalam notasi matriks,
Var( Y ) = A Var( X ) A′.
Semua komponen Var( X ) sebenarnya adalah varian univariat, karena Polarisasi Identitas
4Cov(Xi,Xj)=Var(Xi+Xj)−Var(Xi−Xj).
Ini memberitahu kita bahwa jika Anda memahami varian variabel acak univariat, Anda sudah memahami kovarian variabel bivariat: variabel tersebut adalah "hanya" kombinasi varian linear.
Ungkapan dalam pertanyaan itu benar-benar analog: variabel telah distandarisasi seperti pada ( 1 ) . Kita dapat memahami apa yang diwakilinya dengan mempertimbangkan apa artinya variabel apa pun , terstandarisasi atau tidak. Kami akan diganti setiap X i oleh versi berpusat, seperti dalam ( 2 ) , dan jumlah bentuk memiliki tiga indeks,Xi(1)Xi(2)
μ3(X)ijk=E[X′iX′jX′k].
Ini adalah momen sentral (multivarian) dari tingkat 3 . Seperti pada , mereka membentuk tensor: ketika Y = A X , maka(4)Y=AX
μ3(Y)ijk=∑l,m,naliamjankμ3(X)lmn.
Indeks dalam kisaran jumlah rangkap tiga ini atas semua kombinasi bilangan bulat dari hingga p .1p
Analog dari Identitas Polarisasi adalah
24μ3(X)ijk=μ3(Xi+Xj+Xk)−μ3(Xi−Xj+Xk)−μ3(Xi+Xj−Xk)+μ3(Xi−Xj−Xk).
Di sisi kanan, mengacu pada momen ketiga sentral (univariat): nilai yang diharapkan dari kubus dari variabel terpusat. Ketika variabel distandarisasi, momen ini biasanya disebut skewness . Dengan demikian, kita mungkin berpikir μ 3 ( X ) sebagai yang skewness multivariat dari X . Ini adalah tensor peringkat tiga (yaitu, dengan tiga indeks) yang nilainya adalah kombinasi linear dari skewnesses berbagai jumlah dan perbedaan dari X i . Jika kita mencari interpretasi, maka, kita akan menganggap komponen-komponen ini sebagai ukuran dalam halμ3μ3(X)XXipdimensi apa pun kemiringan diukur dalam satu dimensi. Dalam banyak kasus,
Saat-saat pertama mengukur lokasi dari distribusi;
Momen kedua (matriks varians-kovarians) mengukur penyebarannya ;
Momen kedua terstandarisasi (korelasi) menunjukkan bagaimana penyebaran bervariasi dalam ruang dimensi; danp
Momen ketiga dan keempat yang terstandarisasi diambil untuk mengukur bentuk distribusi relatif terhadap penyebarannya.
Untuk menguraikan makna "bentuk" multidimensi, amati bahwa kita dapat memahami PCA sebagai mekanisme untuk mengurangi distribusi multivarian apa pun ke versi standar yang terletak di titik asal dan penyebaran yang sama di semua arah. Setelah PCA dilakukan, maka, akan memberikan indikator paling sederhana dari bentuk multidimensi distribusi. Ide-ide ini berlaku sama baiknya untuk data dengan variabel acak, karena data selalu dapat dianalisis dalam hal distribusi empiris mereka.μ3
Referensi
Alan Stuart & J. Keith Ord, Teori Lanjutan Statistik Kendall Edisi Kelima, Volume 1: Teori Distribusi ; Bab 3, Momen dan Cumulan . Oxford University Press (1987).
Lampiran: Bukti Identitas Polarisasi
Misalkan menjadi variabel aljabar. Ada 2 n cara untuk menambah dan mengurangi semua n dari mereka. Ketika kita meningkatkan masing-masing jumlah-dan-perbedaan ini ke n th kekuasaan, memilih tanda yang sesuai untuk masing-masing hasil tersebut, dan menambahkan mereka, kita akan mendapatkan kelipatan x 1 x 2 ⋯ x n .x1,…,xn2nnnthx1x2⋯xn
Secara lebih formal, misalkan adalah himpunan semua n -tuple dari ± 1 , sehingga setiap elemen s ∈ S adalah vektor s = ( s 1 , s 2 , … , s n ) yang koefisien semua ± 1 . Klaimnya adalahS={1,−1}nn±1s∈Ss=(s1,s2,…,sn)±1
2nn!x1x2⋯xn=∑s∈Ss1s2⋯sn(s1x1+s2x2+⋯+snxn)n.(1)
Indeed, the Multinomial Theorem states that the coefficient of the monomial xi11xi22⋯xinn (where the ij are nonnegative integers summing to n) in the expansion of any term on the right hand side is
(ni1,i2,…,in)si11si22⋯sinn.
In the sum (1), the coefficients involving xi11 appear in pairs where one of each pair involves the case s1=1, with coefficient proportional to s1 times si11, equal to 1, and the other of each pair involves the case s1=−1, with coefficient proportional to −1 times (−1)i1, equal to (−1)i1+1. They cancel in the sum whenever i1+1 is odd. The same argument applies to i2,…,in. Consequently, the only monomials that occur with nonzero coefficients must have odd powers of all the xi. The only such monomial is x1x2⋯xn. It appears with coefficient (n1,1,…,1)=n! in all 2n terms of the sum. Consequently its coefficient is 2nn!, QED.
We need take only half of each pair associated with x1: that is, we can restrict the right hand side of (1) to the terms with s1=1 and halve the coefficient on the left hand side to 2n−1n! . That gives precisely the two versions of the Polarization Identity quoted in this answer for the cases n=2 and n=3: 22−12!=4 and 23−13!=24.
Of course the Polarization Identity for algebraic variables immediately implies it for random variables: let each xi be a random variable Xi. Take expectations of both sides. The result follows by linearity of expectation.