Dalam Metode Statistik dalam Ilmu Atmosfer , Daniel Wilks mencatat bahwa regresi linier berganda dapat menyebabkan masalah jika ada hubungan yang sangat kuat di antara para prediktor (edisi ke-3, halaman 559-560):
Patologi yang dapat terjadi dalam regresi linier berganda adalah bahwa seperangkat variabel prediktor yang memiliki korelasi timbal balik yang kuat dapat menghasilkan perhitungan hubungan regresi yang tidak stabil.
(...)
Dia kemudian memperkenalkan regresi komponen utama:
Pendekatan untuk memperbaiki masalah ini adalah pertama-tama mengubah prediktor ke komponen utama mereka, korelasi di antaranya adalah nol.
Sejauh ini baik. Tapi selanjutnya, dia membuat beberapa pernyataan yang tidak dia jelaskan (atau setidaknya tidak cukup detail untuk saya mengerti):
Jika semua komponen utama dipertahankan dalam regresi komponen utama, maka tidak ada yang diperoleh dari kuadrat terkecil konvensional yang sesuai dengan set prediktor penuh.
(..) dan:
Dimungkinkan untuk menyatakan kembali regresi komponen utama dalam hal prediktor asli, tetapi hasilnya secara umum akan melibatkan semua variabel prediktor asli bahkan jika hanya satu atau beberapa prediktor komponen utama telah digunakan. Regresi yang dilarutkan ini akan menjadi bias, meskipun seringkali variansnya jauh lebih kecil, sehingga menghasilkan UMK yang lebih kecil secara keseluruhan.
Saya tidak mengerti dua poin ini.
Tentu saja, jika semua komponen utama dipertahankan, kami menggunakan informasi yang sama seperti ketika kami menggunakan prediktor di ruang asalnya. Namun, masalah hubungan timbal balik dihapus dengan bekerja di ruang komponen utama. Kita mungkin masih memiliki overfitting, tetapi apakah itu satu-satunya masalah? Kenapa tidak ada yang didapat?
Kedua, bahkan jika kita memotong komponen utama (mungkin untuk pengurangan kebisingan dan / atau untuk mencegah overfitting), mengapa dan bagaimana hal ini mengarah pada regresi dilarutkan yang bias? Bias dengan cara apa?
Sumber buku: Daniel S. Wilks, Metode Statistik dalam Ilmu Atmosfer, edisi ketiga, 2011. International Geophysics Series Volume 100, Academic Press.