Q1. Komponen utama adalah variabel yang saling ortogonal (tidak berkorelasi). Orthogonality dan kemandirian statistik bukan sinonim . Tidak ada yang istimewa tentang komponen utama; hal yang sama berlaku untuk semua variabel dalam analisis data multivarian. Jika data multivarian normal (yang tidak sama dengan menyatakan bahwa setiap variabel normal univariat) dan variabel tidak berkorelasi, maka ya, mereka independen. Apakah independensi komponen utama penting atau tidak - tergantung pada bagaimana Anda akan menggunakannya. Cukup sering, ortogonalitas mereka akan mencukupi.
Q2. Ya, penskalaan berarti menyusut atau meregangkan varians dari masing-masing variabel. Variabelnya adalah dimensi ruang tempat data berada. Hasil PCA - komponen - peka terhadap bentuk awan data, bentuk "ellipsoid" itu. Jika Anda hanya memusatkan variabel, biarkan variansnya apa adanya, ini sering disebut "PCA berdasarkan covariances". Jika Anda juga membakukan variabel ke varians = 1, ini sering disebut "PCA berdasarkan korelasi", dan itu bisa sangat berbeda dari yang sebelumnya (lihat utas ). Juga, orang yang relatif jarang melakukan PCA pada data yang tidak terpusat: data mentah atau hanya diskalakan dengan besaran unit; hasil PCA tersebut jauh berbeda dari tempat Anda memusatkan data (lihat gambar ).
Q3. "Kendala" adalah cara kerja PCA (lihat utas besar ). Bayangkan data Anda adalah awan 3 dimensi (3 variabel,npoin); asal diatur pada centroid (rata-rata) itu. PCA menarik komponen1 sebagai poros melalui titik asal, jumlah proyeksi kuadrat (koordinat) yang dimaksimalkan ; yaitu varians sepanjang component1 dimaksimalkan. Setelah komponen1 didefinisikan, itu dapat dihapus sebagai dimensi, yang berarti bahwa titik data diproyeksikan ke bidang ortogonal ke komponen itu. Anda dibiarkan dengan awan 2 dimensi. Kemudian lagi, Anda menerapkan prosedur di atas untuk menemukan sumbu varians maksimal - sekarang di cloud 2D yang tersisa ini. Dan itu akan menjadi komponen2. Anda menghapus komponen2 yang ditarik dari pesawat dengan memproyeksikan titik data ke garis orthogonaluntuk itu. Baris itu, yang mewakili awan 1D yang tersisa, didefinisikan sebagai komponen terakhir, komponen 3. Anda dapat melihat bahwa pada masing-masing 3 "langkah" ini, analisis a) menemukan dimensi varian terbesar dalam aruspruang -dimensi, b) mengurangi data ke dimensi tanpa dimensi itu, yaitu ke p−1-dimensi ruang ortogonal ke dimensi yang disebutkan. Begitulah ternyata bahwa setiap komponen utama adalah "varians maksimal" dan semua komponen saling ortogonal (lihat juga ).
[ PS Harap dicatat bahwa "orthogonal" berarti dua hal: (1) sumbu variabel sebagai sumbu tegak lurus fisik; (2) variabel tidak berkorelasi dengan datanya. Dengan PCA dan beberapa metode multivarian lainnya, kedua hal ini adalah hal yang sama. Tetapi dengan beberapa analisis lain (misalnya analisis Diskriminan), variabel laten yang diekstraksi yang tidak berkorelasi tidak secara otomatis berarti bahwa sumbu mereka tegak lurus di ruang asli.]