Ini adalah masalah 3.23 pada halaman 97 dari Hastie et al., Elemen Pembelajaran Statistik , 2. ed. (Pencetakan ke-5) .
Kunci dari masalah ini adalah pemahaman yang baik tentang kuadrat terkecil biasa (yaitu, regresi linier), khususnya ortogonalitas dari nilai yang dipasang dan residu.
Lemma ortogonalitas : Misalkan adalah matriks desain , vektor respons dan parameter (benar). Dengan asumsi adalah peringkat penuh (yang akan kita bahas), perkiraan OLS dari adalah . Nilai yang dipasang adalah . Kemudian . Artinya, nilai-nilai yang dipasang adalah ortogonal terhadap residu. Ini mengikuti sejak .n × p yXn×pyX β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y ⟨ y , y - y ⟩ = y T ( y - y ) = 0 X T ( y -βXββ^=(XTX)−1XTyy^=X(XTX)−1XTy⟨y^,y−y^⟩=y^T(y−y^)=0XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Sekarang, mari menjadi vektor kolom sehingga adalah th kolom . Kondisi yang diasumsikan adalah:x j j XxjxjjX
- j11N⟨xj,xj⟩=1 untuk setiap , ,j1N⟨y,y⟩=1
- 1pp1N⟨xj,1p⟩=1N⟨y,1p⟩=0 mana menunjukkan vektor yang panjangnya , dan1pp
- j1N|⟨xj,y⟩|=λ untuk semua .j
Perhatikan bahwa secara khusus , pernyataan terakhir dari lemma ortogonalitas identik dengan untuk semua .j⟨xj,y−y^⟩=0j
Korelasi terikat
Sekarang, . Jadi,
dan suku kedua di sebelah kanan adalah nol oleh lemma ortogonalitas , jadi
seperti yang diinginkan. Nilai absolut dari korelasi itu adil
⟨ x j , y - u ( a ) ⟩ = ⟨ x j , ( 1 - α ) y + α y - αu(α)=αXβ^=αy^1
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
ρ j(α)= 11N|⟨xj,y−u(α)⟩|=(1−α)λ,
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Catatan : Sisi kanan di atas tidak bergantung pada dan pembilangnya sama dengan kovarians karena kita mengasumsikan bahwa semua dan berpusat (jadi, khususnya, tidak perlu pengurangan rata-rata dari rata-rata) ).x j yjxjy
Apa gunanya? Ketika meningkatkan vektor respons, dimodifikasi sehingga ia beringsut menuju solusi kuadrat-terkecil ( terbatas! ) Yang diperoleh dengan menggabungkan hanya parameter pertama dalam model. Ini secara bersamaan memodifikasi parameter yang diestimasi karena mereka adalah produk dalam sederhana dari prediktor dengan vektor respons (yang dimodifikasi). Modifikasi mengambil bentuk khusus. Itu menjaga (besarnya) korelasi antara prediktor dan respons yang dimodifikasi sama sepanjang proses (meskipun nilai korelasinya berubah). Pikirkan tentang apa yang dilakukan secara geometris dan Anda akan memahami nama prosedurnya!pαp
Bentuk eksplisit dari korelasi (absolut)
Mari kita fokus pada istilah dalam penyebut, karena pembilang sudah dalam bentuk yang diperlukan. Kami memiliki
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
Mengganti dalam dan menggunakan linearitas produk dalam, kita dapatkanu(α)=αy^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Perhatikan itu
- ⟨y,y⟩=N dengan asumsi,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , dengan menerapkan lemma ortogonal (lagi-lagi) ke suku kedua di tengah; dan,
- ⟨y−y^,y−y^⟩=RSS menurut definisi.
Menyatukan semua ini, Anda akan melihat bahwa kami mendapatkannya
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Untuk menyelesaikannya, dan jadi jelas bahwa secara monoton menurun dalam dan sebagai . ρ j(α)α ρ j(α)↓0α↑11−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Epilog : Berkonsentrasilah pada ide-ide di sini. Sebenarnya hanya ada satu. The ortogonalitas lemma melakukan hampir semua pekerjaan untuk kita. Sisanya hanyalah aljabar, notasi, dan kemampuan untuk membuat dua yang terakhir ini bekerja.