Anda tidak memilih subset dari variabel asli 99 (100-1) Anda.
Masing-masing komponen utama adalah kombinasi linear dari semua 99 variabel prediktor (variabel x, IV, ...). Jika Anda menggunakan 40 komponen utama pertama, masing - masingnya adalah fungsi dari semua 99 variabel prediktor asli. (Setidaknya dengan PCA biasa - ada versi yang jarang / teratur seperti SPCA Zou, Hastie dan Tibshirani yang akan menghasilkan komponen berdasarkan variabel yang lebih sedikit.)
Pertimbangkan kasus sederhana dari dua variabel berkorelasi positif, yang untuk kesederhanaan kita asumsikan sama-sama variabel. Kemudian komponen utama pertama adalah kelipatan (fraksional) dari jumlah kedua variate dan yang kedua adalah kelipatan (pecahan) dari perbedaan kedua variate; jika keduanya tidak sama-sama variabel, komponen utama pertama akan lebih berat yang lebih-variabel satu lebih berat, tetapi masih akan melibatkan keduanya.
Jadi Anda mulai dengan 99 variabel-x Anda, dari mana Anda menghitung 40 komponen utama Anda dengan menerapkan bobot yang sesuai pada masing-masing variabel asli. [NB dalam diskusi saya, saya kiray dan XSudah terpusat.]
Anda kemudian menggunakan 40 variabel baru Anda seolah-olah mereka adalah prediktor dalam hak mereka sendiri, sama seperti yang Anda lakukan dengan masalah regresi berganda. (Dalam praktiknya, ada cara yang lebih efisien untuk mendapatkan taksiran, tetapi mari kita kesampingkan aspek komputasi dan hanya berurusan dengan ide dasar)
Sehubungan dengan pertanyaan kedua Anda, tidak jelas apa yang Anda maksud dengan "membalikkan PCA".
PC Anda adalah kombinasi linear dari varian asli. Katakanlah variasi asli Anda ada diX, dan Anda menghitung Z= XW (dimana X adalah n × 99 dan W adalah 99 × 40 matriks yang berisi bobot komponen utama untuk 40 komponen yang Anda gunakan), lalu Anda perkirakan y^= Zβ^PC melalui regresi.
Maka Anda bisa menulis y^= Zβ^PC= XWβ^PC= Xβ^∗ katakan di mana β^∗= Wβ^PC, tentu saja), sehingga Anda dapat menuliskannya sebagai fungsi dari prediksi asli; Saya tidak tahu apakah itu yang Anda maksud dengan 'membalikkan', tapi itu cara yang berarti untuk melihat hubungan asli di antara keduanyay dan X. Itu tidak sama dengan koefisien yang Anda dapatkan dengan memperkirakan regresi pada X asli tentu saja - itu diatur dengan melakukan PCA; meskipun Anda akan mendapatkan koefisien untuk masing-masing X asli Anda dengan cara ini, mereka hanya memiliki df dari jumlah komponen yang Anda pas.
Lihat juga Wikipedia tentang regresi komponen utama .