Hubungan antara regresi ridge dan regresi PCA


19

Saya ingat pernah membaca di suatu tempat di web hubungan antara regresi ridge (dengan regularisasi) dan regresi PCA: saat menggunakan -regregulated regulated dengan hyperparameter , jika , maka regresi tersebut setara dengan menghapus Variabel PC dengan nilai eigen terkecil.2 λ λ 022λλ0

  • Mengapa ini benar?
  • Apakah ini ada hubungannya dengan prosedur optimasi? Secara naif, saya berharap itu setara dengan OLS.
  • Adakah yang punya referensi untuk ini?

1
Bisakah Anda menjelaskan lebih eksplisit bagaimana PCA dan regresi terhubung dalam pernyataan Anda? Regresi membedakan dependen dari variabel independen, sedangkan tidak ada yang terjadi pada PCA. Jadi, variabel apa yang Anda terapkan pada PCA? Tidak bisa hanya variabel independen, karena itu tidak ada hubungannya dengan regresi. Tetapi jika itu diterapkan pada semua variabel, maka vektor eigen adalah kombinasi linear dari semuanya. Apa mungkin ini bisa berarti untuk menghapus setiap komponen tersebut dari dataset, karena melibatkan variabel dependen?
whuber

1
Koneksi (seperti yang saya mengerti), adalah bahwa jika Anda menggunakan penalti regularisasi yang sangat sangat kecil, regresi L2-regularized akan menghilangkan variabel yang memiliki nilai eigen terkecil. Oleh karena itu, melakukan SVD pada matriks desain, dan menghapus variabel dengan nilai eigen terkecil adalah setara dengan regresi dengan penalti regularisasi "lunak" ... Ini adalah penjelasan terdekat yang saya temukan untuk ini: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
Referensi Anda tampaknya menunjukkan kebalikan dari apa yang Anda katakan dalam komentar Anda: untuk kecil , ada sedikit perubahan dalam hasilnya. Tidak ada yang dihapus sama sekali. Bahkan, beberapa slide tampaknya bertujuan menunjukkan perbedaan antara regresi yang dihukum L 2 (di mana estimasi menyusut ke 0 ) dan "regresi PCA" (di mana komponen terkecil seluruhnya dihapus - yang bisa menjadi hal yang sangat buruk dalam beberapa keadaan). λL.20
whuber

2
Mmm .. menemukan referensi lain: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Dalam slide, " dan komponen utama", dikatakan bahwa proyek regresi ridge y pada komponen ini dengan large dj * sigh *yrsayadge
Jose G

3
Apakah Anda memperhatikan hal itu. 14 dari referensi terakhir itu secara eksplisit menjawab pertanyaan Anda?
whuber

Jawaban:


23

Misalkan adalah matriks prediktor terpusat n × p dan pertimbangkan dekomposisi nilai singularnya X = U S V dengan S sebagai matriks diagonal dengan elemen diagonal s i .Xn×halX=USVSssaya

Nilai-nilai pas kuadrat terkecil biasa (OLS) regresi diberikan oleh y O L S = X β O L S = X ( XX ) - 1 Xy = U Uy . Nilai dipasang regresi ridge diberikan oleh y r i d g e = X β r i d g e = X ( XX

y^HAIL.S=XβHAIL.S=X(XX)-1Xy=UUy.
Nilai dipasang dari PCA regresi (PCR) dengankkomponen diberikan oleh y PCR=XPCAβPCR=U
y^ridge=Xβridge=X(XX+λsaya)-1Xy=UdsayaSebuahg{ssaya2ssaya2+λ}Uy.
k mana ada k yang diikuti oleh nol.
y^PCR=XPCSEBUAHβPCR=UdsayaSebuahg{1,...,1,0,...0}Uy,
k

Dari sini kita dapat melihat bahwa:

  1. Jika maka y r i d g e = y O L S .λ=0y^rsayadge=y^HAIL.S

  2. λ>0ssayassaya2λ

  3. kλ=0kλ=

  4. Ini berarti bahwa regresi ridge dapat dilihat sebagai "versi lancar" dari PCR.

    ssayaX

  5. Regresi Ridge cenderung berkinerja lebih baik dalam praktik (misalnya memiliki kinerja lintas-validasi lebih tinggi).

  6. λ0y^rsayadgey^HAIL.Sssaya

Salah satu referensi yang baik adalah Elemen Pembelajaran Statistik , Bagian 3.4.1 "Regresi Ridge".


Lihat juga utas ini: Interpretasi regularisasi ridge dalam regresi dan khususnya jawabannya oleh @BrianBorchers.


Apakah masuk akal untuk soft-threshold nilai singular, maks ( ssaya-thresh, 0)? (Lasso regresi soft-thresholdβL.eSebuahst-sqkamuSebuahres, bukan spektrum.)
denis

Satu koreksi untuk jawaban Anda yang luar biasa: nilai yang pas dalam regresi pada yang pertama k PC sebenarnya
Udiag(11,12,...,1k,0,...,0)UTy
Ini adalah latihan di akhir bab yang Anda sebutkan.
Matthias Schmidtblaicher

Ini indah.
xxx222

6

Elemen Pembelajaran Statistik memiliki diskusi besar tentang hubungan ini.

Cara saya mengartikan koneksi dan logika ini adalah sebagai berikut:

  • PCA adalah Kombinasi Linear dari Variabel Fitur, berusaha untuk memaksimalkan varians data yang dijelaskan oleh ruang baru.
  • Data yang menderita multikolinearitas (atau lebih banyak prediktor daripada deretan data) mengarah ke Matriks Kovarian yang tidak memiliki Peringkat penuh.
  • Dengan Matriks Kovarian ini, kita tidak dapat membalikkan untuk menentukan solusi Least Squares; ini menyebabkan perkiraan numerik dari koefisien kuadrat terkecil meledak hingga tak terbatas.
  • Ridge Regression memperkenalkan penalti Lambda pada Covariance Matrix untuk memungkinkan inversi matriks dan konvergensi Koefisien LS.

Sambungan PCA adalah bahwa Regresi Ridge menghitung Kombinasi Linear dari Fitur untuk menentukan di mana multikolinieritas terjadi. Kombinasi Fitur Linier (Analisis Komponen Utama) dengan varians terkecil (dan karenanya nilai singular yang lebih kecil dan nilai eigen yang lebih kecil di PCA) adalah yang dihukum paling berat.

Pikirkan seperti ini; untuk Kombinasi Linier Fitur dengan varian terkecil, kami telah menemukan Fitur yang paling mirip, sehingga menyebabkan multikolinieritas. Karena Ridge tidak mengurangi set Fitur, arah mana pun yang digambarkan oleh Kombinasi Linier ini, Fitur asli yang sesuai dengan arah itu paling banyak dihukum.


2

Pertimbangkan persamaan linier

Xβ=y,
dan SVD dari X,
X=USVT,
dimana S=diag(ssaya) adalah matriks diagonal dari nilai singular.

Kuadrat terkecil biasa menentukan vektor parameter β sebagai

βHAIL.S=VS-1UT
Namun, pendekatan ini gagal segera setelah ada satu nilai singular yang nol (saat itu kebalikannya tidak ada). Apalagi jika tidakssaya adalah sangat nol, nilai singular yang kecil secara numerik dapat membuat matriks tidak dikondisikan dan mengarah pada solusi yang sangat rentan terhadap kesalahan.

Regresi Ridge dan PCA menghadirkan dua metode untuk menghindari masalah ini. Regresi punggungan menggantikanS-1 dalam persamaan di atas untuk β oleh

Spunggung bukit-1=diag(ssayassaya2+α),βpunggung bukit= VSpunggung bukit-1UT

PCA menggantikan S-1 oleh

SPCA-1=diag(1ssayaθ(ssaya-γ)),βPCA= VSPCA-1UT
wehre θ adalah fungsi langkah, dan γ adalah parameter ambang batas.

Kedua metode demikian melemahkan dampak ruang bagian yang sesuai dengan nilai-nilai kecil. PCA melakukan itu dengan cara yang sulit, sementara punggungan adalah pendekatan yang lebih halus.

Secara lebih abstrak, Anda dapat membuat skema regularisasi sendiri

SmyReg-1=diag(R(ssaya)),
dimana R(x) adalah fungsi yang harus mendekati nol untuk x0 dan R(x)x-1 untuk xbesar. Tapi ingat, tidak ada makan siang gratis.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.