Dengan asumsi saya memiliki kumpulan data dengan dimensi (mis. ) sehingga setiap dimensi adalah iid (atau masing-masing dimensi ) dan tidak tergantung satu sama lain.d = 20 X i ∼ U [ 0 ; 1 ] X i ∼ N [ 0 ; 1 ]
Sekarang saya menggambar objek acak dari dataset ini dan mengambil tetangga terdekat dan menghitung PCA pada set ini. Berbeda dengan apa yang diharapkan, nilai eigen tidak semuanya sama. Dalam seragam 20 dimensi, hasil yang khas terlihat seperti ini:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Untuk data terdistribusi normal, hasilnya tampak sangat mirip, setidaknya ketika men-rescaling mereka ke jumlah total ( distribusi jelas memiliki varian yang lebih tinggi di tempat pertama).N [ 0 ; 1 ] d
Saya ingin tahu apakah ada hasil yang memprediksi perilaku ini? Saya mencari tes jika rangkaian nilai eigen agak teratur, dan berapa banyak nilai eigen seperti yang diharapkan dan mana yang berbeda secara signifikan dari nilai yang diharapkan.
Untuk ukuran sampel tertentu (kecil) , adakah hasil jika koefisien korelasi untuk dua variabel signifikan? Bahkan variabel iid akan memiliki hasil non-0 sesekali untuk rendah .k