Tergantung pada tujuan analisis Anda. Beberapa praktik umum, beberapa di antaranya disebutkan dalam tautan whuber:
- Standarisasi biasanya dilakukan ketika variabel yang dilakukan PCA tidak diukur pada skala yang sama. Perhatikan bahwa standardisasi menyiratkan menetapkan sama pentingnya untuk semua variabel.
- Jika mereka tidak diukur pada skala yang sama dan Anda memilih untuk bekerja pada variabel yang tidak terstandarisasi, sering kali setiap PC didominasi oleh variabel tunggal dan Anda hanya mendapatkan semacam pemesanan variabel dengan varians mereka. (Salah satu pemuatan masing-masing komponen (awal) akan mendekati +1 atau -1.)
- Kedua metode ini sering menghasilkan hasil yang berbeda, seperti yang Anda alami.
Contoh intuitif:
Misalkan Anda memiliki dua variabel: tinggi pohon dan ketebalan pohon yang sama. Kami akan mengonversi volume menjadi faktor: volume pohon akan tinggi jika volumenya lebih besar dari 20 kaki kubik, dan sebaliknya volume rendah. Kami akan menggunakan dataset pohon yang dimuat di R.
>data(trees)
>tree.girth<-trees[,1]
>tree.height<-trees[,2]
>tree.vol<-as.factor(ifelse(trees[,3]>20,"high","low"))
Sekarang anggaplah bahwa ketinggian sebenarnya diukur dalam mil bukan kaki.
>tree.height<-tree.height/5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
>summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 3.0871086 1.014551e-03
Proportion of Variance 0.9999999 1.080050e-07
Cumulative Proportion 0.9999999 1.000000e+00
Komponen pertama menjelaskan hampir 100% dari variabilitas dalam data. Pemuatan:
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -1
tree.girth 1
Penilaian grafis:
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Kita melihat bahwa pohon dengan volume tinggi cenderung memiliki ketebalan pohon yang tinggi, tetapi ketiganya tidak memberikan informasi tentang volume pohon. Ini kemungkinan salah dan konsekuensi dari dua ukuran unit yang berbeda.
Kita bisa menggunakan unit yang sama, atau kita bisa membuat standar variabel. Saya berharap keduanya akan mengarah pada gambaran variabilitas yang lebih seimbang. Tentu saja dalam kasus ini orang dapat berargumen bahwa variabel harus memiliki unit yang sama tetapi tidak dibakukan, yang mungkin merupakan argumen yang valid, seandainya kita tidak mengukur dua hal yang berbeda. (Ketika kita akan mengukur berat pohon dan ketebalan pohon, skala di mana keduanya harus diukur tidak lagi sangat jelas. Dalam hal ini kita memiliki argumen yang jelas untuk bekerja pada variabel standar.)
>tree.height<-tree.height*5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 6.5088696 2.5407042
Proportion of Variance 0.8677775 0.1322225
Cumulative Proportion 0.8677775 1.0000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -0.956 0.293
tree.girth -0.293 -0.956
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Kita sekarang melihat bahwa pohon yang tinggi dan memiliki lingkar besar, volumenya tinggi (sudut kiri bawah), dibandingkan dengan lingkar rendah dan tinggi rendah untuk pohon volume rendah (sudut kanan atas). Ini secara intuitif masuk akal.
Namun, jika seseorang memperhatikan dengan seksama, kita melihat bahwa kontras antara volume tinggi / rendah paling kuat dalam arah ketebalan dan tidak dalam arah ketinggian. Mari kita lihat apa yang terjadi ketika kita melakukan standarisasi:
>tree<-scale(tree,center=F,scale=T)
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 0.2275561 0.06779544
Proportion of Variance 0.9184749 0.08152510
Cumulative Proportion 0.9184749 1.00000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height 0.203 -0.979
tree.girth 0.979 0.203
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))
Memang, ketebalan sekarang menjelaskan sebagian besar perbedaan pohon volume tinggi dan rendah! (Panjang panah dalam biplot adalah indikasi varians dalam variabel asli.) Jadi, bahkan jika hal-hal diukur pada skala yang sama, standardisasi mungkin berguna. Tidak ada standardisasi yang direkomendasikan ketika kita misalnya membandingkan panjang spesies pohon yang berbeda karena pengukuran ini persis sama.