Jawaban:
Mari kita mulai dengan mendefinisikan norma-norma. Untuk matriks , operator -norm didefinisikan sebagai dan norma Frobenius sebagai‖X‖F=√
PCA diberikan oleh dekomposisi nilai singular yang sama ketika data dipusatkan. merupakan komponen utama, V adalah sumbu utama, yaitu vektor eigen dari matriks kovarians, dan rekonstruksi X dengan hanya k komponen utama yang sesuai dengan k nilai tunggal terbesar diberikan oleh X k = U k S k V ⊤ k .
The Eckart-Young teorema mengatakan bahwa adalah matriks meminimalkan norma kesalahan rekonstruksi ‖ X - Sebuah ‖ antara semua matriks A pangkat k . Ini berlaku untuk keduanya, norma Frobenius dan operator 2 -norm. Seperti yang ditunjukkan oleh @ cardinal dalam komentar, itu pertama kali dibuktikan oleh Schmidt (dari ketenaran Gram-Schmidt) pada tahun 1907 untuk kasus Frobenius. Itu kemudian ditemukan kembali oleh Eckart dan Young pada tahun 1936 dan sekarang sebagian besar dikaitkan dengan nama mereka. Mirsky menggeneralisasi teorema pada tahun 1958 untuk semua norma yang tidak berubah di bawah transformasi kesatuan, dan ini termasuk norma 2 operator.
Teorema ini kadang-kadang disebut teorema Eckart-Young-Mirsky. Stewart (1993) menyebutnya teorema aproksimasi Schmidt. Saya bahkan pernah melihatnya disebut teorema Schmidt-Eckart-Young-Mirsky.
Biarkan menjadi peringkat penuh n . Karena A adalah peringkat k , ruang nolnya memiliki dimensi n - k . Ruang yang direntang oleh k + 1 vektor X tunggal yang sesuai dengan nilai singular terbesar memiliki dimensi k + 1 . Jadi kedua ruang ini harus bersilangan. Biarkan w menjadi vektor satuan dari persimpangan. Kemudian kita mendapatkan: ‖ X - A ‖ 2 2 ≥ ‖ ( X - A ) w ‖ 2QED.
Kami ingin mencari matriks dari peringkat k yang meminimalkan ‖ X - A ‖ 2 F . Kita bisa pd A = B W ⊤ , di mana W memiliki k ortonormal kolom. Meminimalkan ‖ X - B W ⊤ ‖ 2 untuk tetap W adalah masalah regresi dengan solusi B = X W . Memasukkannya, kita melihat bahwa kita sekarang perlu meminimalkan ‖ X - X W W ⊤ mana Σ adalah matriks kovarian X , yaitu Σ = X ⊤ X / ( n - 1 ) . Berarti bahwa kesalahan rekonstruksi ini diminimalkan dengan mengambil sebagai kolom W beberapa k ortonormal vektor memaksimalkan total varian dari proyeksi.
See the following three related threads:
This proof I found somewhere online but it is wrong (contains a gap), as explained by @cardinal in the comments.
Frobenius norm is invariant under unitary transformations, because they do not change the singular values. So we get: