Perkiraan distribusi nilai eigen untuk data iid (seragam atau normal)


9

Dengan asumsi saya memiliki kumpulan data dengan dimensi (mis. ) sehingga setiap dimensi adalah iid (atau masing-masing dimensi ) dan tidak tergantung satu sama lain.d = 20 X iU [ 0 ; 1 ] X iN [ 0 ; 1 ]dd=20XiU[0;1]XiN[0;1]

Sekarang saya menggambar objek acak dari dataset ini dan mengambil tetangga terdekat dan menghitung PCA pada set ini. Berbeda dengan apa yang diharapkan, nilai eigen tidak semuanya sama. Dalam seragam 20 dimensi, hasil yang khas terlihat seperti ini:k=3d

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Untuk data terdistribusi normal, hasilnya tampak sangat mirip, setidaknya ketika men-rescaling mereka ke jumlah total ( distribusi jelas memiliki varian yang lebih tinggi di tempat pertama).N [ 0 ; 1 ] d1N[0;1]d

Saya ingin tahu apakah ada hasil yang memprediksi perilaku ini? Saya mencari tes jika rangkaian nilai eigen agak teratur, dan berapa banyak nilai eigen seperti yang diharapkan dan mana yang berbeda secara signifikan dari nilai yang diharapkan.

Untuk ukuran sampel tertentu (kecil) , adakah hasil jika koefisien korelasi untuk dua variabel signifikan? Bahkan variabel iid akan memiliki hasil non-0 sesekali untuk rendah .kkk


1
hmmm, bisakah Anda mencetak hasil tersebut dengan ara yang lebih sedikit? Saya tidak dapat menguraikannya dengan mudah ...
shabbychef

Nah, seperti yang Anda lihat besarnya menarik. Secara naif, orang akan mengharapkan mereka memiliki kekuatan yang sama.
Memiliki QUIT - Anony-Mousse

Jawaban:


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.