- Jika maka hukuman kami akan menjadi tak terbatas untuk selain , jadi itulah yang akan kami dapatkan. Tidak ada vektor lain yang akan memberi kita nilai terbatas dari fungsi tujuan.λ→∞ββ=0
(Pembaruan: Silakan lihat jawaban Glen_b. Ini bukan alasan historis yang benar!)
- Ini berasal dari solusi regresi ridge dalam notasi matriks. Solusinya ternyata
Istilah menambahkan "ridge" ke diagonal utama dan menjamin bahwa matriks yang dihasilkan tidak dapat dibalik. Ini berarti, tidak seperti OLS, kami akan selalu mendapatkan solusi.
β^=(XTX+λI)−1XTY.
λI
Regresi Ridge berguna ketika prediktor berkorelasi. Dalam hal ini OLS dapat memberikan hasil yang liar dengan koefisien yang sangat besar, tetapi jika mereka dihukum kita bisa mendapatkan hasil yang jauh lebih masuk akal. Secara umum, keuntungan besar untuk meningkatkan regresi adalah bahwa solusinya selalu ada, seperti yang disebutkan di atas. Ini berlaku bahkan untuk kasus di mana , di mana OLS tidak dapat memberikan solusi (unik).n<p
Regresi Ridge juga merupakan hasil ketika prior normal diletakkan pada vektor .β
Inilah Bayesian mengambil regresi ridge: Misalkan prioritas kami untuk adalah . Maka karena [dengan asumsi] kita memiliki
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Mari kita temukan mode posterior (kita bisa melihat mean posterior atau hal-hal lain juga, tetapi untuk ini mari kita lihat mode, yaitu nilai yang paling mungkin). Ini artinya kita menginginkan
yang setara dengan
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
karena benar-benar monoton dan ini pada gilirannya setara dengan
logminβ∈Rp||y−Xβ||2+λβTβ
yang seharusnya terlihat cukup akrab.
Jadi kita melihat bahwa jika kita meletakkan prior normal dengan rata-rata 0 dan varians pada vektor kami , nilai yang memaksimalkan posterior adalah estimator ridge. Perhatikan bahwa ini memperlakukan lebih sebagai parameter frequentist karena tidak ada sebelumnya tetapi tidak diketahui, jadi ini tidak sepenuhnya Bayesian.σ2λββσ2
Sunting: Anda bertanya tentang case di mana . Kita tahu bahwa hyperplane di didefinisikan oleh titik tepat . Jika kita menjalankan regresi linier dan maka kita menginterpolasi data kita dengan tepat dan mendapatkan . Ini adalah solusi, tetapi ini mengerikan: kinerja kami pada data masa depan kemungkinan besar akan sangat buruk. Sekarang anggaplah : tidak ada lagi hyperplane unik yang ditentukan oleh titik-titik ini. Kita dapat memuat banyak hyperplanes, masing-masing dengan 0 jumlah kuadrat residual.n<pRppn=p||y−Xβ^||2=0n<p
Contoh yang sangat sederhana: misalkan . Maka kita hanya akan mendapatkan garis antara dua poin ini. Sekarang anggaplah tetapi . Bayangkan sebuah pesawat dengan dua titik ini di dalamnya. Kita dapat memutar pesawat ini tanpa mengubah fakta bahwa dua titik ini ada di dalamnya, jadi ada banyak sekali model dengan nilai sempurna dari fungsi tujuan kita, sehingga bahkan di luar masalah overfitting, tidak jelas mana yang harus dipilih.n=p=2n=2p=3
Sebagai komentar terakhir (sesuai saran per gung), LASSO (menggunakan penalti ) biasanya digunakan untuk masalah dimensi tinggi karena secara otomatis melakukan pemilihan variabel (menetapkan beberapa ). Cukup menyenangkan, ternyata LASSO setara dengan menemukan mode posterior ketika menggunakan eksponensial ganda (alias Laplace) sebelum pada vektor . LASSO juga memiliki beberapa batasan, seperti menjenuhkan pada prediktor dan tidak harus menangani kelompok-kelompok prediktor berkorelasi dengan cara yang ideal, sehingga jaring elastis (kombinasi cembung dari hukuman dan ) dapat ditanggung.L1βj=0βnL1L2