Saya akan mulai dengan demonstrasi intuitif.
Saya menghasilkan pengamatan (a) dari distribusi 2D yang sangat non-Gaussian, dan (b) dari distribusi 2D Gaussian. Dalam kedua kasus saya memusatkan data dan melakukan dekomposisi nilai singular X = U S V ⊤ . Kemudian untuk setiap kasus saya membuat plot pencar dari dua kolom pertama U , satu terhadap yang lain. Perhatikan bahwa biasanya kolom U S yang disebut "komponen utama" (PC); kolom U adalah PC yang diskalakan untuk memiliki norma satuan; masih, dalam jawaban ini saya fokus pada kolom U . Berikut adalah plot pencar:n=100X=USV⊤UUSUU
Saya pikir pernyataan seperti "komponen PCA tidak berkorelasi" atau "komponen PCA tergantung / independen" biasanya dibuat tentang satu matriks sampel spesifik dan merujuk pada korelasi / dependensi lintas baris (lihat misalnya jawaban @ ttnphns di sini ). PCA menghasilkan matriks data transformasi U , di mana baris adalah pengamatan dan kolom adalah variabel PC. Yaitu kita dapat melihat U sebagai sampel , dan bertanya apa korelasi sampel antara variabel PC. Matriks korelasi sampel ini tentu saja diberikan oleh U ⊤ U = IXUUU⊤U=I, artinya korelasi sampel antara variabel PC adalah nol. Inilah yang orang maksud ketika mereka mengatakan bahwa "PCA mendiagonisasi matriks kovarians", dll.
Kesimpulan 1: dalam koordinat PCA, data apa pun memiliki korelasi nol.
Ini berlaku untuk kedua plot sebar di atas. Namun, segera jelas bahwa dua variabel PC dan y di sebar kiri (non-Gaussian) tidak independen; meskipun mereka memiliki korelasi nol, mereka sangat tergantung dan pada kenyataannya terkait dengan y ≈ a ( x - b ) 2 . Dan memang, sudah diketahui umum bahwa tidak berkorelasi bukan berarti mandirixyy≈a(x−b)2 .
Sebaliknya, dua variabel PC dan y di sebar kanan (Gaussian) tampaknya "cukup independen". Komputasi informasi timbal balik di antara mereka (yang merupakan ukuran ketergantungan statistik: variabel independen memiliki nol informasi bersama) dengan algoritma standar apa pun akan menghasilkan nilai yang sangat mendekati nol. Tidak akan persis nol, karena tidak pernah benar-benar nol untuk ukuran sampel hingga (kecuali disetel dengan baik); Selain itu, ada berbagai metode untuk menghitung informasi timbal balik dari dua sampel, memberikan jawaban yang sedikit berbeda. Tetapi kita dapat berharap bahwa metode apa pun akan menghasilkan perkiraan informasi timbal balik yang sangat mendekati nol.xy
Kesimpulan 2: dalam koordinat PCA, data Gaussian "cukup independen", yang berarti bahwa estimasi standar ketergantungan akan berada di sekitar nol.
Namun, pertanyaannya lebih rumit, seperti yang ditunjukkan oleh rantai komentar yang panjang. Memang, @whuber dengan tepat menunjukkan bahwa variabel PCA dan y (kolom U ) harus bergantung secara statistik: kolom harus panjang unit dan harus ortogonal, dan ini menimbulkan ketergantungan. Misalnya jika beberapa nilai di kolom pertama sama dengan 1 , maka nilai yang sesuai di kolom kedua harus 0xyU10 .
Ini benar, tetapi praktis hanya relevan untuk sangat kecil , seperti misalnya n = 3 (dengan n = 2 setelah pemusatan hanya ada satu PC). Untuk ukuran sampel yang masuk akal, seperti n = 100 yang ditunjukkan pada gambar saya di atas, efek ketergantungan akan diabaikan; kolom U adalah proyeksi (skala) dari data Gaussian, sehingga mereka juga Gaussian, yang membuatnya hampir mustahil untuk satu nilai mendekati 1 (ini akan membutuhkan semua elemen n - 1 lainnya mendekati 0 , yang hampir tidak distribusi Gaussian).nn=3n=2n=100U1n−10
Kesimpulan 3: secara tegas, untuk setiap terbatas , data Gaussian dalam koordinat PCA tergantung; Namun, ketergantungan ini secara praktis tidak relevan untuk setiap n ≫ 1 .nn≫1
Kita dapat membuat ini tepat dengan mempertimbangkan apa yang terjadi dalam batas . Dalam batas ukuran sampel yang tak terbatas, matriks kovarian sampel sama dengan matriks kovarians populasi Σ . Jadi jika data vektor X adalah sampel dari → X ~ N ( 0 , Σ ) , maka variabel PC → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (di mana Λ dan Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVadalah nilai eigen dan vektor eigen dari ) dan → Y ∼ N ( 0 , I / ( n - 1 ) ) . Yaitu variabel PC berasal dari Gaussian multivariat dengan kovarians diagonal. Tetapi setiap Gaussian multivarian dengan matriks kovariansi diagonal terurai menjadi produk Gaussians univariat, dan ini adalah definisi independensi statistik :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Kesimpulan 4: variabel PC asimtotik ( ) dari data Gaussian secara statistik independen sebagai variabel acak, dan sampel informasi timbal balik akan memberikan nilai populasi nol.n→∞
Saya harus mencatat bahwa dimungkinkan untuk memahami pertanyaan ini secara berbeda (lihat komentar oleh @whuber): untuk mempertimbangkan seluruh matriks variabel acak (diperoleh dari matriks acak X melalui operasi tertentu) dan bertanya apakah ada dua elemen spesifik U i j dan U k l dari dua kolom yang berbeda secara statistik independen di seluruh undian X yang berbeda . Kami menjelajahi pertanyaan ini di utas berikutnya .UXUijUklX
Inilah keempat kesimpulan sementara dari atas:
- Dalam koordinat PCA, data apa pun memiliki korelasi nol.
- Dalam koordinat PCA, data Gaussian "cukup independen", yang berarti bahwa perkiraan standar ketergantungan akan berada di sekitar nol.
- nn≫1 .
- n→∞