Pertanyaannya muncul untuk meminta demonstrasi bahwa Regresi Ridge menyusut estimasi koefisien ke nol, menggunakan dekomposisi spektral. Dekomposisi spektral dapat dipahami sebagai konsekuensi mudah dari Dekomposisi Nilai Singular (SVD). Karenanya, posting ini dimulai dengan SVD. Ini menjelaskannya secara sederhana dan kemudian menggambarkannya dengan aplikasi penting. Kemudian memberikan demonstrasi yang diminta (aljabar). (Aljabar, tentu saja, identik dengan demonstrasi geometrik; ia hanya ditulis dalam bahasa yang berbeda.)
Sumber asli jawaban ini dapat ditemukan di catatan kursus regresi saya . Versi ini memperbaiki beberapa kesalahan kecil.
Apa itu SVD
Setiap n × p matriks X , dengan p ≤ n , dapat ditulis
X= UD V′
di mana
U adalahmatriksn × p .
- Kolom memiliki panjang 1 .U1
- Kolom-kolom adalah saling ortogonal.U
- Mereka disebut komponen utama dari .X
adalah p × p matriks.Vp × p
- Kolom memiliki panjang 1 .V1
- Kolom-kolom saling ortogonal.V
- Merek ini sebuah rotasi dari R p .VRhal
adalahdiagonal p × p matriks.D p × p
- Elemen-elemen diagonal tidak negatif. Ini adalah nilai-nilai singular dari X .d11, d22, ... , dp pX
- Jika diinginkan, kami dapat memesannya dari yang terbesar hingga yang terkecil.
Kriteria (1) dan (2) menyatakan bahwa dan V adalah matriks ortonormal . Mereka dapat diringkas dengan rapi berdasarkan kondisinyaUV
U′U= 1hal, V ′V= 1hal.
Sebagai konsekuensinya (bahwa mewakili rotasi), V V ′ = 1 p juga. Ini akan digunakan dalam derivasi Ridge Regression di bawah ini.VVV′= 1hal
Apa manfaatnya bagi kita
Itu bisa menyederhanakan formula. Ini berfungsi baik secara aljabar dan konseptual. Berikut ini beberapa contohnya.
Persamaan Normal
Pertimbangkan regresi mana, seperti biasa, ε terdistribusi secara independen dan identik menurut hukum yang tidak memiliki ekspektasi nol dan varian terbatas σ 2 . Solusi kuadrat terkecil melalui normal Persamaan adalah β = ( X ' X ) - 1 X ' y . Menerapkan SVD dan menyederhanakan kekacauan aljabar yang dihasilkan (yang mudah) memberikan wawasan yang bagus:y= Xβ+ εεσ2
β^= ( X′X)- 1X′y.
( X′X)- 1X′= ( ( UD V′)′( UD V′) )- 1( UD V′)′= ( VD U′UD V′)- 1( VD U′) = VD- 2V′VD U′= VD- 1U′.
Satu-satunya perbedaan antara ini dan adalah bahwa kebalikan dari elemen D digunakan! Dengan kata lain, "persamaan" y = X β diselesaikan dengan "membalikkan" X : inversi semu ini mengurungkan rotasi U dan V ′ (hanya dengan memindahkannya) dan membatalkan perkalian (diwakili oleh DX′= VD U′Dy= XβXUV′D ) secara terpisah di setiap prinsipal arah.
Untuk referensi di masa mendatang, pemberitahuan bahwa "diputar" perkiraan β adalah kombinasi linear dari "diputar" tanggapan U ' y . Koefisien invers dari (positif) elemen diagonal D , sama untuk d - 1 i iV′β^U′yDd- 1i i .
Koefisien estimasi koefisien
Ingat bahwa kovarians dari perkiraan adalah Menggunakan SVD, ini menjadi σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . Dengan kata lain, kovarians bertindak seperti itu dari k orthogonal variabel, masing-masing dengan varians d 2 i i
Cov ( β^) = σ2( X′X)- 1.
σ2( VD2V′)- 1= σ2VD- 2V′.
k d2i i, Yang telah diputar di
Rk .
Matriks Hat
Matriks topi adalah Dengan menggunakan hasil sebelumnya kita dapat menulis ulang sebagai H = ( U D V ′ ) ( V D - 1 U ′ ) = U U ′ .
H= X( X′X)- 1X′.
H= ( UD V′) ( VD- 1U′) = UU′.
Sederhana!
Analisis eigen (dekomposisi spektral)
X′X=VD U′UD V′= VD2V′
XX′=UD V′VD U′= UD2U′,
- X′XXX′
- VX′X
- UXX′
SVD dapat mendiagnosis dan menyelesaikan masalah collinearity.
Mendekati para regresi
UD V′Uy
Regresi Punggung
XyXλ > 0
β^R= ( X′X+ λ )- 1X′y= ( VD2V′+ λ1hal)- 1VD U′y= ( VD2V′+ λ VV′)- 1VD U′y= (V( D2+ λ ) V′)- 1VD U′y=V(D2+ λ )- 1V′VD U′y=V( D2+ λ )- 1D U′y.
β^D- 1= D- 2D( D2+λ )- 1DD2/ ( D2+ λ )λ > 0
Hasil ini harus dipahami dalam arti agak halus yang disinggung sebelumnya: diputarV′β^RU′yd- 1i id2i i/ ( d2i i+ λ )λβ^R
d- 1i i