Berikut kutipan keren dari Jolliffe (1982) yang tidak saya sertakan dalam jawaban saya sebelumnya untuk pertanyaan yang sangat mirip, " Komponen varians rendah dalam PCA, apakah mereka benar-benar hanya noise? Apakah ada cara untuk mengujinya? " itu cukup intuitif.
Misalkan diperlukan untuk memprediksi ketinggian pangkalan cloud, H , masalah penting di bandara. Berbagai variabel iklim diukur termasuk suhu permukaan Ts , dan titik embun permukaan, Td . Di sini, Td adalah suhu di mana udara permukaan akan jenuh dengan uap air, dan perbedaannya Ts−Td , adalah ukuran kelembaban permukaan. Sekarang Ts,Td umumnya berkorelasi positif, sehingga analisis komponen utama dari variabel iklim akan memiliki komponen varians tinggi yang sangat berkorelasi dengan Ts+Td , dan komponen varians rendah yang berkorelasi sama dengan Ts−Td. Tapi H terkait dengan kelembaban dan karenanya untuk Ts−Td , yaitu untuk rendah-varian daripada komponen high-varians, sehingga strategi yang menolak komponen rendah-varian akan memberikan prediksi yang buruk untuk H .
Diskusi contoh ini tidak jelas karena efek yang tidak diketahui dari variabel iklim lainnya yang juga diukur dan dimasukkan dalam analisis. Namun, ini menunjukkan kasus yang masuk akal secara fisik di mana variabel dependen akan terkait dengan komponen varians rendah, mengkonfirmasikan tiga contoh empiris dari literatur.
Selain itu, contoh pangkalan awan telah diuji pada data dari Bandara Cardiff (Wales) untuk periode 1966-1973 dengan satu variabel iklim tambahan, suhu permukaan laut, juga disertakan. Hasilnya pada dasarnya seperti yang diprediksi di atas. Komponen utama terakhir adalah sekitar
Ts−Td , dan hanya menyumbang H0,4 persen dari total variasi. Namun, dalam regresi komponen utama itu mudah prediktor yang paling penting bagi H . [Penekanan ditambahkan]
Tiga contoh dari literatur yang disebutkan dalam kalimat terakhir dari paragraf kedua adalah tiga yang saya sebutkan dalam jawaban saya untuk pertanyaan terkait .
Referensi
Jolliffe, IT (1982). Catatan tentang penggunaan komponen utama dalam regresi. Statistik Terapan, 31 (3), 300–303. Diperoleh dari http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .