Pertama, saya pikir bahwa de-korelasi dan pemutihan adalah dua prosedur terpisah.
Untuk mende-korelasikan data, kita perlu mengubahnya sehingga data yang ditransformasi akan memiliki matriks kovarians diagonal. Transformasi ini dapat ditemukan dengan memecahkan masalah nilai eigen. Kami menemukan vektor eigen dan nilai eigen terkait dari matriks kovarians dengan menyelesaikanΣ = X X′
Σ Φ = Φ Λ
di mana adalah matriks diagonal yang memiliki nilai eigen sebagai elemen diagonalnya.Λ
Matriks dengan demikian mendiagonalisasi matriks kovarians . Kolom adalah vektor eigen dari matriks kovarians.X ΦΦXΦ
Kita juga dapat menulis kovarians yang didiagonalisasi sebagai:
Φ′Σ Φ = Λ(1)
Jadi untuk mende-korelasikan satu vektor , kita lakukan:xsaya
x∗saya= Φ′xsaya(2)
Elemen diagonal (nilai eigen) di mungkin sama atau berbeda. Jika kita membuat semuanya sama, maka ini disebut pemutihan data. Karena setiap nilai eigen menentukan panjang vektor eigen yang terkait, kovarians akan sesuai dengan elips ketika data tidak diputihkan, dan ke bola (memiliki semua dimensi dengan panjang yang sama, atau seragam) ketika data diputihkan. Pemutihan dilakukan sebagai berikut:Λ
Λ- 1 / 2Λ Λ- 1 / 2= Saya
Secara setara, sebagai pengganti dalam , kami menulis:( 1 )
Λ- 1 / 2Φ′Σ Φ Λ- 1 / 2= Saya
Jadi, untuk menerapkan transformasi pemutihan ini ke kita cukup mengalikannya dengan faktor skala ini, mendapatkan titik data yang diputihkan : x † ix∗sayax†saya
x†saya= Λ- 1 / 2x∗saya= Λ- 1 / 2Φ′xsaya(3)
Sekarang kovarians tidak hanya diagonal, tetapi juga seragam (putih), karena kovarians , .x†sayax†sayaE ( x†sayax†saya′) = I
Sebagai lanjutan dari ini, saya bisa melihat dua kasus di mana ini mungkin tidak berguna. Yang pertama agak sepele, bisa terjadi bahwa penskalaan contoh data entah bagaimana penting dalam masalah inferensi yang Anda lihat. Tentu saja Anda bisa nilai eigen sebagai seperangkat fitur tambahan untuk menyiasati ini. Yang kedua adalah masalah komputasi: pertama Anda harus menghitung matriks kovarians , yang mungkin terlalu besar untuk muat dalam memori (jika Anda memiliki ribuan fitur) atau terlalu lama untuk menghitung; kedua, dekomposisi nilai eigen adalah O (n ^ 3) dalam praktiknya, yang sekali lagi cukup mengerikan dengan sejumlah besar fitur.Σ
Dan akhirnya, ada "gotcha" yang umum bahwa orang harus berhati-hati. Seseorang harus berhati-hati bahwa Anda menghitung faktor penskalaan pada data pelatihan , dan kemudian Anda menggunakan persamaan (2) dan (3) untuk menerapkan faktor penskalaan yang sama pada data uji, jika tidak Anda berisiko overfitting (Anda akan menggunakan informasi dari set tes dalam proses pelatihan).
Sumber: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf