Ini pertanyaan yang menarik. Anehnya, dimungkinkan untuk melakukan sesuatu berdasarkan asumsi tertentu, tetapi ada potensi hilangnya informasi tentang varian residual. Tergantung pada X berapa banyak yang hilang.
Mari kita pertimbangkan dekomposisi nilai singular berikut dari dengan dan matriks dengan kolom ortonormal, matriks diagonal dengan nilai singular positif di diagonal dan a matriks ortogonal. Kemudian kolom membentuk basis ortonormal untuk ruang kolom dan
adalah vektor koefisien untuk proyeksi ke ruang kolom ini ketika diperluas dalam X U n × p D d 1 ≥ d 2 ≥ . . . ≥ d p > 0 VX=UDVtXUn×pDd1≥d2≥...≥dp>0Vp×pUX
Z=UtY=D−1VtVDUtY=D−1VtXtY
YUDasar kolom. Dari rumus kita melihat bahwa hanya dapat dihitung dari pengetahuan dan .
ZXXtY
Karena prediktor regresi ridge untuk diberikan dapat dihitung sebagai
kita melihat bahwa koefisien untuk prediktor regresi ridge dalam basis kolom adalah
Sekarang kita membuat asumsi distribusi bahwa memiliki rata-rata dimensi dan matriks kovarian . Maka memiliki -dimensi rata-rata dan matriks kovarian . Jika kita membayangkan seorang yang mandiriλ
Y^= X( XtX+ λ I)- 1XtY= UD ( D2+ λ I)- 1D UtY= UD ( D2+ λ I)- 1D Z
UYnξσ2InZpUtξσ2IpYBaruYXZBaru=UtYBaruZ E | | Y New - Y | | 2Z^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNew dengan distribusi yang sama dengan (semuanya bersyarat pada dari sini) yang sesuai memiliki sama distribusi sebagai dan independen dan
Di sini persamaan ketiga diikuti oleh ortogonalitas dan dan yang keempat berdasarkan fakta bahwa
YXZNew=UtYNewZYNew-UZNewUZNew-U Z UErr0λE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^U memiliki kolom ortonormal. Kuantitas adalah kesalahan yang tidak bisa kami dapatkan informasi tentangnya, tetapi juga tidak bergantung pada . Untuk meminimalkan kesalahan prediksi di sisi kiri kita harus meminimalkan istilah kedua di sisi kanan.
Err0λ
Dengan perhitungan standar
Di sini dikenal sebagai derajat kebebasan efektif untuk regresi ridge dengan parameter . Estimator tidak bias adalah
df(λ)λE| | Z-Z| | 2err(λ)=| | Z-Z| | 2=p∑i=1(1-d2i
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
Kami menggabungkan ini dengan estimator (tidak bias)
dari mengingat kita tahu , yang kemudian perlu kita kurangi. Jelas, ini hanya dapat dilakukan jika kita tahu atau memiliki perkiraan yang masuk akal atau estimator dari .E | | Z New - Z | | 2 σ 2 σ 2 σ 2
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
Memperkirakan bisa lebih bermasalah. Dimungkinkan untuk menunjukkan bahwa
Jadi jika dimungkinkan untuk memilih sangat kecil sehingga bias kuadrat dapat diabaikan, kita dapat mencoba memperkirakan sebagai
Jika akan pekerjaan ini tergantung banyak pada . E | | Z - Z | | 2 = σ 2 ( p - p Σ i = 1 d 2 iσ2λσ2σ2=1
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λσ2Xσ^2=1p−d(λ)||Z−Z^||2.
X
Untuk beberapa detail, lihat Bagian 3.4.1 dan Bab 7 di ESL atau mungkin Bab 2 yang lebih baik di GAM .