Apa yang dimaksud dengan "PCA (Principal Component Analysis) di sekitar data"?

Saya sedang membaca beberapa catatan dan dikatakan bahwa PCA dapat "sphere data". Apa yang mereka definisikan kepada saya sebagai "sphering the data" adalah membagi setiap dimensi dengan akar kuadrat dari nilai eigen yang sesuai.

Saya mengasumsikan bahwa dengan "dimensi" yang mereka maksudkan adalah setiap basis vektor yang kita proyeksikan (yaitu vektor eigen yang kita proyeksikan ke). Jadi saya kira mereka melakukan:

u_{i}^{^{'}} = \frac{u_{i}}{\sqrt{e i g e n V a l u e (u_{i})}}

$u^{'}_i= \frac{u_i}{\sqrt{eigenValue(u_i)}}$

dimana $u_i$ adalah salah satu vektor eigen (yaitu salah satu komponen utama). Kemudian dengan vektor baru itu, saya berasumsi mereka memproyeksikan data mentah yang kita miliki, katakanlah $x^{(i)}$ untuk $z^{(i)}$ . Jadi poin yang diproyeksikan sekarang adalah:

z^{' (i)} = u_{i}^{^{'}} \cdot x^{(i)}

$z'^{(i)} = u^{'}_i \cdot x^{(i)}$

Mereka mengklaim bahwa melakukan ini memastikan bahwa semua fitur memiliki varian yang sama.

Namun, saya bahkan tidak yakin apakah interpretasi saya tentang apa yang mereka maksudkan dengan sphering benar dan ingin memeriksa apakah itu benar. Juga, bahkan jika itu benar, apa gunanya melakukan sesuatu seperti ini? Saya tahu mereka mengklaim itu memastikan semua orang memiliki varian yang sama tetapi, mengapa kita ingin melakukan ini dan bagaimana cara mencapai ini?

pca

— Pinokio
sumber

Apa yang Anda katakan itu benar. uadalah nilai vektor eigen dan terkait dengan nilai PC mentah. u'disebut memuat dan terkait dengan nilai PC yang dinormalisasi (sama varians). Anda mungkin ingin membaca jawaban saya tentang itu: stats.stackexchange.com/a/35653/3277 .

— ttnphns

Dengan kata lain, Anda dapat menghitung nilai PC mentah dan kemudian membakukannya dengan varians (unit) yang sama. Atau, untuk mendapatkan hasil yang sama, pertama-tama Anda dapat menghitung pemuatan dan kemudian menghitung nilai PC dengan bantuan mereka.

— ttnphns

Thread terkait: Analisis komponen utama dan normalisasi varian .

— amoeba

Untuk apa nilainya sebagian besar orang tidak akan menganggap penggunaan 'sphere' ini sebagai kata kerja sebagai gaya bahasa Inggris yang sangat baik, bahkan jika itu dapat dipahami.

— nekomatic

Pemahaman Anda benar. Lihat gambar ini yang mewakili berbagai kemungkinan poin data Anda: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Mereka terlihat ellipsoidal. Jika Anda melakukan apa yang telah Anda jelaskan di atas, misalnya, kompres titik-titik ke arah yang paling banyak mereka sebarkan (kira-kira garis 45 derajat pada gambar), titik-titik tersebut akan terletak dalam lingkaran (bola dalam dimensi yang lebih tinggi).

Salah satu alasan Anda memperbesar data adalah saat melakukan prediksi dan pemahaman koordinat mana yang penting. Katakanlah Anda ingin memprediksi $y$ menggunakan $x_1$ dan $x_2$ , dan Anda mendapatkan nilai koefisien $\beta_1$ dan $\beta_2$ yaitu $y\sim \beta_1 x_1+\beta_2x_2$ . Sekarang jika $x_1$ dan $x_2$ memiliki varian yang sama, yaitu mereka didistribusikan secara kasar, dan Anda menemukannya $\beta_1=1$ sementara $\beta_2=10$ , Anda dapat menafsirkan ini mengatakan itu $x_2$ pengaruh $y$ lebih dari $x_1$ . Namun jika skala mereka tidak sama, dan $x_1$ didistribusikan 10 kali lebih banyak dari $x_2$ , maka Anda akan mendapatkan nilai di atas $\beta_1$ dan $\beta_2$ bahkan jika mereka berdua terpengaruh $y$ kira-kira sama. Untuk meringkas, Anda "membulatkan" atau "menormalkan" untuk membuat kesimpulan tentang pentingnya variabel dari koefisiennya.

— elexhobby
sumber