Misalkan kita memiliki variabel terukur, , kita melakukan sejumlah pengukuran, dan kemudian ingin melakukan dekomposisi nilai singular pada hasil untuk menemukan sumbu varians tertinggi untuk poin dalam dimensi ruang. ( Catatan: asumsikan bahwa sarana telah dikurangi, jadi untuk semua .)
Sekarang anggaplah satu (atau lebih) variabel memiliki magnitudo karakteristik yang berbeda secara signifikan daripada variabel lainnya. Misalnya dapat memiliki nilai dalam kisaran sedangkan sisanya dapat sekitar . Ini akan sangat condong ke sumbu varian tertinggi terhadap sumbu .
Perbedaan dalam besaran mungkin semata-mata karena pilihan yang tidak menguntungkan dari satuan pengukuran (jika kita berbicara tentang data fisik, misalnya kilometer vs meter), tetapi sebenarnya variabel yang berbeda mungkin memiliki dimensi yang sama sekali berbeda (misalnya berat vs volume), jadi mungkin tidak ada cara yang jelas untuk memilih unit "sebanding" untuk mereka.
Pertanyaan: Saya ingin tahu apakah ada cara standar / umum untuk menormalkan data untuk menghindari masalah ini. Saya lebih tertarik pada teknik standar yang menghasilkan besaran yang sebanding untuk untuk tujuan ini daripada menghasilkan sesuatu yang baru.
EDIT: Satu kemungkinan adalah untuk menormalkan setiap variabel dengan standar deviasinya atau yang serupa. Namun, masalah berikut muncul kemudian: mari kita menafsirkan data sebagai titik awan dalam ruang dimensi. Cloud titik ini dapat diputar, dan jenis normalisasi ini akan memberikan hasil akhir yang berbeda (setelah SVD) tergantung pada rotasi. (Misalnya dalam kasus paling ekstrim bayangkan memutar data dengan tepat untuk menyelaraskan sumbu utama dengan sumbu utama.)
Saya berharap tidak akan ada cara rotasi-invarian untuk melakukan ini, tapi saya akan menghargai jika seseorang dapat mengarahkan saya ke beberapa diskusi tentang masalah ini dalam literatur, terutama mengenai peringatan dalam interpretasi hasil.