Analisis komponen utama dapat menggunakan dekomposisi matriks, tetapi itu hanya alat untuk sampai ke sana.
Bagaimana Anda menemukan komponen utama tanpa menggunakan aljabar matriks?
Apa fungsi objektif (goal), dan apa saja kendalanya?
Analisis komponen utama dapat menggunakan dekomposisi matriks, tetapi itu hanya alat untuk sampai ke sana.
Bagaimana Anda menemukan komponen utama tanpa menggunakan aljabar matriks?
Apa fungsi objektif (goal), dan apa saja kendalanya?
Jawaban:
Tanpa mencoba memberikan primer penuh pada PCA, dari sudut pandang optimisasi, fungsi tujuan utama adalah hasil bagi Rayleigh . Matriks yang angka dalam hasil bagi adalah (beberapa kelipatan) dari sampel matriks kovarians dimana setiap adalah vektor fitur dan adalah matriks sehingga baris th adalah .
PCA berupaya memecahkan serangkaian masalah optimisasi. Yang pertama dalam urutan adalah masalah yang tidak dibatasi
Karena, masalah yang tidak dibatasi di atas setara dengan masalah yang dibatasi
Di sinilah aljabar matriks masuk. Karena adalah matriks semidefinit positif simetris (dengan konstruksi!) Ia memiliki dekomposisi nilai eigen dari bentuk mana adalah matriks ortogonal (jadi ) dan adalah matriks diagonal dengan entri tidak negatif sedemikian rupa sehingga .
Oleh karena itu, . Karena dibatasi dalam masalah untuk memiliki norma satu, maka begitu pula karena , berdasarkan menjadi ortogonal.
Tetapi, jika kita ingin memaksimalkan kuantitas bawah batasan yang , maka yang terbaik yang bisa kita lakukan adalah dengan set , yaitu, dan untuk .
Sekarang, dengan mencocokkan yang sesuai , yang merupakan tujuan kami, kami mendapatkan bahwa mana menunjukkan kolom pertama dari , yaitu, eigenvector sesuai dengan nilai eigen terbesar dari . Nilai fungsi objektif kemudian juga mudah dilihat sebagai .
Vektor komponen utama yang tersisa kemudian ditemukan dengan menyelesaikan urutan (diindeks oleh ) dari masalah optimasi Jadi, masalahnya sama, kecuali bahwa kita menambahkan batasan tambahan bahwa solusi harus ortogonal untuk semua solusi sebelumnya dalam urutan. Hal ini tidak sulit untuk memperpanjang argumen di atas induktif untuk menunjukkan bahwa solusi dari masalah th, memang, , yang th eigenvector dari .
Solusi PCA juga sering dinyatakan dalam dekomposisi nilai singular dari . Untuk melihat mengapa, biarkan . Kemudian dan begitu (sebenarnya, hingga tanda membalik) dan .
Komponen utama ditemukan dengan memproyeksikan ke vektor komponen utama. Dari formulasi SVD yang baru saja diberikan, mudah untuk melihat bahwa
Kesederhanaan representasi dari kedua vektor komponen utama dan komponen utama itu sendiri dalam hal SVD dari matriks fitur adalah salah satu alasan fitur SVD begitu menonjol dalam beberapa perawatan PCA.
Solusi yang disajikan oleh kardinal berfokus pada matriks kovarian sampel. Titik awal lainnya adalah kesalahan rekonstruksi data dengan hyperplane q- dimensional. Jika titik data p- dimensi adalah tujuannya adalah untuk menyelesaikannya
untuk matriks dengan kolom ortonormal dan . Ini memberikan peringkat q- rekonstruksi terbaik yang diukur dengan norma euclidean, dan kolom dari solusi adalah vektor komponen q utama.
Untuk fix solusi untuk dan (ini adalah regresi) adalah
Untuk kemudahan notasi mari kita asumsikan bahwa telah dipusatkan dalam perhitungan berikut. Kami kemudian harus meminimalkan
lebih dengan kolom ortonormal. Perhatikan bahwa adalah proyeksi ke ruang kolom q- dimensi. Karenanya masalahnya sama dengan meminimalkan
lebih rank q proyeksi . Artinya, kita perlu memaksimalkan
atas peringkat q proyeksi , di mana adalah matriks kovarians sampel. Sekarang
Kesalahan rekonstruksi menunjukkan sejumlah generalisasi yang bermanfaat, misalnya komponen utama yang jarang atau rekonstruksi dengan manifold berdimensi rendah alih-alih hyperplanes. Untuk detailnya, lihat Bagian 14.5 di Elemen Pembelajaran Statistik .