Bisakah seseorang menggunakan regresi berganda untuk memprediksi satu komponen utama (PC) dari beberapa PC lain?


15

Beberapa waktu yang lalu seorang pengguna di milis R-help bertanya tentang kesehatan menggunakan skor PCA dalam suatu regresi. Pengguna mencoba menggunakan beberapa skor PC untuk menjelaskan variasi di PC lain (lihat diskusi lengkap di sini ). Jawabannya adalah tidak, ini tidak masuk akal karena PC saling orthogonal.

Adakah yang bisa menjelaskan dengan lebih terperinci mengapa demikian?


1
Mengapa Anda memberi rtag dan apa yang Anda maksud dengan "mengapa demikian?" PC tidak berkorelasi, yaitu mereka ortogonal, aditif, Anda tidak dapat memprediksi satu PC dengan yang lain. Apakah Anda mencari formula?
aL3xa

Saya bertanya-tanya tentang prinsip-prinsip di balik logika (dalam pencarian saya untuk memahami PCA). Saya menggunakan tag R karena orang R mungkin membaca ini dan mungkin menunjukkan contoh R. :)
Roman Luštrik

Oh, kenapa kamu tidak bilang begitu? Pernahkah Anda melihat statmethods.net/advstats/factor.html
aL3xa

Jawaban:


11

Komponen utama adalah kombinasi linear tertimbang dari semua faktor Anda (X).

contoh: PC1 = 0.1X1 + 0.3X2

Akan ada satu komponen untuk setiap faktor (meskipun secara umum sejumlah kecil dipilih).

Komponen dibuat sedemikian rupa sehingga tidak memiliki korelasi (bersifat ortogonal), dengan desain.

Oleh karena itu, komponen PC1 tidak boleh menjelaskan variasi komponen PC2.

Anda mungkin ingin melakukan regresi pada variabel Y Anda dan representasi PCA dari X Anda, karena mereka tidak akan memiliki multi-collinearity. Namun, ini bisa sulit ditafsirkan.

Jika Anda memiliki lebih banyak X daripada observasi, yang memecah OLS, Anda dapat mundur pada komponen Anda, dan cukup memilih sejumlah kecil komponen variasi tertinggi.

Analisis Komponen Utama oleh Jollife buku yang sangat mendalam dan sangat dikutip tentang masalah ini

Ini juga bagus: http://www.statsoft.com/textbook/principal-components-factor-analysis/


11

Komponen utama adalah ortogonal menurut definisi, sehingga setiap pasangan PC akan memiliki korelasi nol.

Namun, PCA dapat digunakan dalam regresi jika ada banyak variabel penjelas. Ini dapat direduksi menjadi sejumlah kecil komponen utama dan digunakan sebagai prediktor dalam regresi.


Bukankah itu FA?
Roman Luštrik

3
Tidak. FA bukan regresi. Saya mengacu pada variabel respons yang mengalami kemunduran terhadap komponen-komponen utama yang dihitung dari sejumlah besar variabel penjelas. Komponen utama itu sendiri terkait erat dengan faktor FA.
Rob Hyndman

Maaf, saya seharusnya lebih tepat dalam komentar saya. Tulisan Anda bahwa variabel penjelas dapat dikurangi menjadi sejumlah kecil PC memberi saya bel "analisis faktor".
Roman Luštrik

Dalam set dengan n variabel, n PC dapat diekstraksi, tetapi Anda dapat memutuskan berapa banyak yang ingin Anda simpan, misalnya kriteria Guttman-Keizer mengatakan: jaga agar semua PC yang memiliki nilai eigen (varians) lebih besar dari 1. Jadi ada .. .
aL3xa

7

Hati-hati ... hanya karena PC dengan konstruksi saling orthogonal tidak berarti bahwa tidak ada pola atau bahwa satu PC tidak dapat "menjelaskan" sesuatu tentang PC lain.

Pertimbangkan data 3D (X, Y, Z) yang menggambarkan sejumlah besar poin yang didistribusikan secara merata di permukaan sepak bola Amerika (itu adalah ellipsoid - bukan bola - bagi mereka yang belum pernah menonton sepakbola Amerika). Bayangkan bahwa sepak bola berada dalam konfigurasi yang sewenang-wenang sehingga baik X, Y, maupun Z tidak berada di sepanjang sumbu panjang sepakbola.

Komponen utama akan menempatkan PC1 di sepanjang sumbu panjang sepakbola, sumbu yang menggambarkan varians paling banyak dalam data.

Untuk setiap titik dalam dimensi PC1 sepanjang sumbu panjang sepakbola, irisan planar yang diwakili oleh PC2 dan PC3 harus menggambarkan lingkaran dan jari-jari irisan melingkar ini tergantung pada dimensi PC1. Memang benar bahwa regresi PC2 atau PC3 pada PC1 harus memberikan koefisien nol secara global, tetapi tidak lebih dari bagian yang lebih kecil dari bola .... dan jelas bahwa grafik 2D PC1 dan PC2 akan menunjukkan batas pembatas yang "menarik" itu bernilai dua, nonlinier, dan simetris.


3

Jika data Anda berdimensi tinggi dan berisik, dan Anda tidak memiliki sampel dalam jumlah besar, Anda menghadapi bahaya overfitting. Dalam kasus seperti itu, masuk akal untuk menggunakan PCA (yang dapat menangkap bagian dominan dari varians data; ortogonalitas bukan masalah) atau analisis faktor (yang dapat menemukan variabel penjelas sebenarnya yang mendasari data) untuk mengurangi dimensi data dan kemudian latih model regresi bersama mereka.

Untuk pendekatan berbasis analisis faktor, lihat makalah ini Bayesian Factor Regression Model , dan versi Bayesian nonparametrik dari model ini yang tidak berasumsi bahwa Anda seorang apriori mengetahui jumlah "relevan" faktor-faktor yang relevan (atau komponen utama dalam kasus PCA).

Saya akan menambahkan bahwa dalam banyak kasus, pengurangan dimensionalitas yang diawasi (mis., Fisher Discriminant Analysis ) dapat memberikan peningkatan dibandingkan dengan pendekatan berbasis PCA atau FA, karena Anda dapat menggunakan informasi label saat melakukan pengurangan dimensionalitas.


0

Anda mungkin menariknya keluar jika skor PC prediksi diekstraksi dari variabel yang berbeda, atau kasus, dari skor PC prediktor. jika itu yang diprediksi dan prediktornya tidak ortogonal, atau setidaknya tidak perlu, korelasinya, tentu saja, tidak dijamin.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.