Saya sedang membaca beberapa catatan dan dikatakan bahwa PCA dapat "sphere data". Apa yang mereka definisikan kepada saya sebagai "sphering the data" adalah membagi setiap dimensi dengan akar kuadrat dari nilai eigen yang sesuai.
Saya mengasumsikan bahwa dengan "dimensi" yang mereka maksudkan adalah setiap basis vektor yang kita proyeksikan (yaitu vektor eigen yang kita proyeksikan ke). Jadi saya kira mereka melakukan:
dimana adalah salah satu vektor eigen (yaitu salah satu komponen utama). Kemudian dengan vektor baru itu, saya berasumsi mereka memproyeksikan data mentah yang kita miliki, katakanlah untuk . Jadi poin yang diproyeksikan sekarang adalah:
Mereka mengklaim bahwa melakukan ini memastikan bahwa semua fitur memiliki varian yang sama.
Namun, saya bahkan tidak yakin apakah interpretasi saya tentang apa yang mereka maksudkan dengan sphering benar dan ingin memeriksa apakah itu benar. Juga, bahkan jika itu benar, apa gunanya melakukan sesuatu seperti ini? Saya tahu mereka mengklaim itu memastikan semua orang memiliki varian yang sama tetapi, mengapa kita ingin melakukan ini dan bagaimana cara mencapai ini?
u
adalah nilai vektor eigen dan terkait dengan nilai PC mentah.u'
disebut memuat dan terkait dengan nilai PC yang dinormalisasi (sama varians). Anda mungkin ingin membaca jawaban saya tentang itu: stats.stackexchange.com/a/35653/3277 .