Bagaimana komponen utama teratas dapat mempertahankan daya prediksi pada variabel dependen (atau bahkan mengarah ke prediksi yang lebih baik)?

25

Misalkan Saya menjalankan regresi . Mengapa dengan memilih komponen prinsip atas , apakah model mempertahankan daya prediksi pada ? $Y \sim X$ $k$ $X$ $Y$

Saya mengerti bahwa dari dimensi-reduksi / titik fitur-seleksi pandang, jika adalah vektor eigen dari kovarians matriks dengan top eigen, maka adalah komponen utama top dengan varian maksimum. Dengan demikian kita dapat mengurangi jumlah fitur menjadi dan mempertahankan sebagian besar daya prediksi, seperti yang saya mengerti. $v_1, v_2, ... v_k$ $X$ $k$ $Xv_1, Xv_2 ... Xv_k$ $k$ $k$

Tetapi mengapa komponen top mempertahankan daya prediksi pada ? $k$ $Y$

Jika kita berbicara tentang seorang jenderal OLS , tidak ada alasan untuk menyarankan bahwa jika fitur memiliki varians maksimum, maka memiliki daya prediksi yang paling di . $Y \sim Z$ $Z_i$ $Z_i$ $Y$

Pembaruan setelah melihat komentar: Saya kira saya telah melihat banyak contoh menggunakan PCA untuk pengurangan dimensi. Saya berasumsi itu berarti dimensi yang tersisa untuk kita memiliki kekuatan paling prediktif. Kalau tidak, apa gunanya reduksi dimensi?

— Vendetta
sumber

3

Anda benar: tidak ada alasan matematika untuk menganggap PC

atas

memiliki kekuatan prediktif - sama seperti tidak ada alasan matematika secara umum untuk menganggap bahwa setiap rangkaian kovariat

memiliki hubungan sama sekali dengan

diberikan . Tampaknya Anda mungkin merujuk pada beberapa pernyataan yang Anda temui: persis apa yang dikatakan dan siapa yang mengatakannya?

K

$K$

X

$X$

X

$X$

Y

$Y$

— whuber

@whuber Kurasa aku punya banyak contoh menggunakan PCA untuk pengurangan dimensi. Saya berasumsi itu berarti dimensi yang tersisa untuk kita memiliki kekuatan paling prediktif. Kalau tidak, itu gunanya mengurangi dimensi?

— Vendetta

43

Memang, tidak ada jaminan bahwa komponen utama atas (PC) memiliki daya prediksi lebih dari yang varians rendah.

$y$

Topik ini banyak dibahas di forum kami, dan tanpa adanya satu utas kanonik yang jelas, saya hanya dapat memberikan beberapa tautan yang bersama-sama memberikan berbagai kehidupan nyata serta contoh buatan:

Dan topik yang sama, tetapi dalam konteks klasifikasi:

Namun, dalam praktiknya, PC atas sering tidak sering memiliki kekuatan lebih prediktif daripada yang rendah varians, dan terlebih lagi, hanya menggunakan PC atas dapat menghasilkan daya prediksi yang lebih baik daripada menggunakan semua PC.

$p$ $n$ $p \approx n$ $p>n$

$y$ $X$

Lihat jawaban selanjutnya oleh @cbeleites (+1) untuk beberapa diskusi tentang mengapa asumsi ini sering dibenarkan (dan juga utas yang lebih baru ini: Apakah pengurangan dimensionalitas hampir selalu berguna untuk klasifikasi? Untuk beberapa komentar lebih lanjut).

Hastie et al. dalam The Elements of Statistics Learning (bagian 3.4.1) mengomentari ini dalam konteks regresi ridge:

$\mathbf X$

Lihat jawaban saya di utas berikut untuk detail:

Intinya

Untuk masalah dimensi tinggi, pra-pemrosesan dengan PCA (yang berarti mengurangi dimensi dan hanya mempertahankan PC teratas) dapat dilihat sebagai salah satu cara regularisasi dan akan sering meningkatkan hasil analisis selanjutnya, baik itu regresi atau metode klasifikasi. Tetapi tidak ada jaminan bahwa ini akan berhasil, dan seringkali ada pendekatan regularisasi yang lebih baik.

— amuba kata Reinstate Monica
sumber

Terima kasih telah mengumpulkan referensi dalam jawaban Anda. Ini satu lagi yang baru. Ada jawaban dengan tautan lebih lanjut.

— ttnphns

Terima kasih, @ttnphns! Saya belum melihat posting itu, karena tidak memiliki tag [pca] (saya hanya mengikuti beberapa tag tertentu). Sebenarnya, saya agak tidak senang bahwa ada koleksi longgar dari 5-10 utas terkait erat, tanpa pertanyaan dan tidak ada jawaban yang benar-benar sempurna dan tidak ada duplikat nyata di antara mereka. Saya lebih suka memiliki satu utas kanonik yang dapat digunakan untuk referensi di masa depan ...

— amoeba mengatakan Reinstate Monica

Saya telah menambahkan tag ke pertanyaan itu. Jawaban ensiklodedik "sempurna" pada tema yang menarik itu sedang menunggu penulisnya. :-) Anda mungkin memutuskan untuk menjadi satu.

— ttnphns

Juga relevan: jawaban onestop untuk stats.stackexchange.com/questions/3561/…

— kjetil b halvorsen

11

Selain jawaban yang sudah fokus pada properti matematika, saya ingin mengomentari dari sudut pandang eksperimental.

Ringkasan: proses pembuatan data sering dioptimalkan dengan cara yang membuat data cocok untuk komponen utama (PCR) atau regresi kuadrat terkecil parsial (PLS).

Saya ahli kimia analitik. Ketika saya merancang eksperimen / metode untuk mengukur (regresi atau klasifikasi) sesuatu, saya menggunakan pengetahuan saya tentang aplikasi dan instrumen yang tersedia untuk mendapatkan data yang membawa rasio sinyal terhadap noise yang baik sehubungan dengan tugas yang dihadapi. Itu berarti, data yang saya hasilkan dirancang untuk memiliki kovarians besar dengan properti yang menarik.
Ini mengarah ke struktur varians di mana varians menarik besar, dan PC kemudian akan membawa noise (kecil) saja.

Saya juga lebih suka metode yang menghasilkan informasi yang berlebihan tentang tugas yang dihadapi, agar mendapatkan hasil yang lebih kuat atau lebih tepat. PCA mengkonsentrasikan saluran pengukuran yang berlebihan ke dalam satu PC, yang kemudian membawa banyak variasi dan karenanya merupakan salah satu PC pertama.

Jika ada perancu diketahui yang akan menyebabkan varians besar yang tidak berkorelasi dengan properti yang diminati, saya biasanya akan mencoba untuk memperbaikinya sebanyak mungkin selama preprocessing data: dalam banyak kasus perancu ini diketahui sifat fisik atau kimia, dan pengetahuan ini menyarankan cara yang tepat untuk memperbaiki perancu. Misalnya saya mengukur spektrum Raman di bawah mikroskop. Intensitas mereka tergantung pada intensitas sinar laser serta seberapa baik saya bisa memfokuskan mikroskop. Keduanya mengarah pada perubahan yang dapat dikoreksi dengan menormalkan misalnya ke sinyal yang dikenal konstan.
Dengan demikian, kontributor besar varians yang tidak berkontribusi pada solusi mungkin telah dihilangkan sebelum data memasuki PCA, meninggalkan sebagian besar varians yang bermakna di PC pertama.

Last but not least, ada sedikit ramalan yang terpenuhi dengan sendirinya di sini: Jelas PCR dilakukan dengan data di mana asumsi bahwa varians pembawa informasi besar memang masuk akal. Jika misalnya saya berpikir bahwa mungkin ada perancu penting yang saya tidak tahu cara memperbaikinya, saya akan segera mencari PLS yang lebih baik mengabaikan kontribusi besar yang tidak membantu tugas prediksi.

— Cbeleites mendukung Monica
sumber

+1. Ini adalah tambahan yang bagus, terima kasih telah bergabung dalam diskusi.

— Amuba kata Reinstate Monica

@amoeba: terima kasih atas kata-katanya yang baik. Seperti biasa, juga jawaban Anda sangat teliti. Sebenarnya saya mengandalkan Anda merawat [pca]!

— cbeleites mendukung Monica

6

PCA kadang-kadang digunakan untuk memperbaiki masalah yang disebabkan oleh variabel collinear sehingga sebagian besar variasi dalam ruang X ditangkap oleh komponen utama K.

Tetapi masalah matematika ini tentu saja tidak sama dengan menangkap sebagian besar variasi baik dalam ruang X, Y sedemikian rupa sehingga variasi yang tidak dapat dijelaskan sekecil mungkin.

Kuadrat terkecil parsial mencoba melakukan ini dalam pengertian yang terakhir:

http://en.wikipedia.org/wiki/Partial_least_squares_regress

— Analis
sumber

3

Seperti yang telah ditunjukkan oleh yang lainnya, tidak ada hubungan langsung antara vektor eigen top k dan kekuatan prediksi. Dengan memilih bagian atas dan menggunakannya sebagai dasar, Anda mempertahankan energi teratas (atau varian di sepanjang sumbu itu).

Bisa jadi bahwa sumbu yang menjelaskan varian paling banyak sebenarnya berguna untuk prediksi tetapi secara umum hal ini tidak terjadi.

— Vladislavs Dovgalecs
sumber

Ketika Anda mengatakan "secara umum", apakah maksud Anda secara umum dalam praktik atau secara umum dalam teori?

— Amoeba berkata Reinstate Monica

@amoeba Secara umum karena mudah untuk membuat dataset di mana memproyeksikan data pada sumbu varians maksimum k atas tidak prediktif / diskriminatif.

— Vladislavs Dovgalecs

-1

Izinkan saya menawarkan satu penjelasan sederhana.

PCA sama dengan menghapus fitur tertentu secara intuitif. Ini mengurangi kemungkinan over-fitting.

— penghuni utara
sumber