Ini tentang varians
OLS menyediakan apa yang disebut Penaksir Tidak Cocok Linier Terbaik (BIRU) . Itu berarti bahwa jika Anda mengambil penaksir tidak bias lainnya, itu pasti memiliki varians yang lebih tinggi daripada solusi OLS. Jadi mengapa kita harus mempertimbangkan hal lain selain itu?
Sekarang trik dengan regularisasi, seperti laso atau ridge, adalah dengan menambahkan beberapa bias pada gilirannya untuk mencoba mengurangi varians. Karena ketika Anda memperkirakan kesalahan prediksi Anda, itu adalah kombinasi dari tiga hal :
E [ ( y- f^( x ) )2] = Bias [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
Bagian terakhir adalah kesalahan yang tidak dapat direduksi, jadi kami tidak memiliki kendali atas hal itu. Menggunakan solusi OLS istilah biasnya adalah nol. Tapi mungkin istilah kedua itu besar. Mungkin ide yang bagus, (
jika kita ingin prediksi yang baik ), untuk menambahkan beberapa bias dan semoga mengurangi varians.
Jadi apa ini ? Ini adalah varian yang diperkenalkan dalam taksiran untuk parameter dalam model Anda. Model linier memiliki bentuk
y = X β + ϵ ,Var [ f^( x ) ) ]
Untuk mendapatkan solusi OLS kami menyelesaikan masalah minimisasi
arg min β | | y - X β | | 2
ini memberikan solusi
β OLS = ( X T X ) - 1 X T y
Masalah minimalisasi untuk regresi ridge mirip:
arg min β | | y - X β | |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2saya)
argminβ| | y - X β| |2
β^OLS= ( XTX )- 1XTy
Sekarang solusi menjadi
β Ridge = ( X T X + λ I ) - 1 X T y
Jadi kita menambahkan ini
λ I (disebut punggung bukit) pada diagonal dari matriks yang kita invert. Efeknya pada matriks
X T X adalah bahwa ia "
menarik" penentu matriks dari nol. Jadi ketika Anda membalikkannya, Anda tidak mendapatkan nilai eigen yang besar. Tapi itu mengarah pada fakta menarik lainnya, yaitu bahwa varians dari estimasi parameter menjadi lebih rendah.
argminβ| | y - X β||2+ λ || β||2λ > 0
β^Punggung bukit= ( XTX +λI)- 1XTy
λ IXTX
Saya tidak yakin apakah saya bisa memberikan jawaban yang lebih jelas dari ini. Semua ini intinya adalah matriks kovarians untuk parameter dalam model dan besarnya nilai-nilai dalam matriks kovarians tersebut.
Saya mengambil regresi ridge sebagai contoh, karena itu jauh lebih mudah untuk diobati. Lasso jauh lebih sulit dan masih ada penelitian aktif yang sedang berlangsung tentang topik itu.
Slide ini memberikan beberapa informasi lebih lanjut dan blog ini juga memiliki beberapa informasi yang relevan.
EDIT: Apa maksud saya bahwa dengan menambahkan punggungan, penentu " ditarik " dari nol?
XTX
det ( XTX -tI) = 0
tdet ( XTX +λI- t saya) = 0
det ( XTX -(t-λ)I) = 0
( t - λ )tsayatsaya+ λλ
Berikut ini beberapa kode R untuk menggambarkan hal ini:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Yang memberikan hasil:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Jadi semua nilai eigen digeser ke atas dengan tepat 3.
Anda juga dapat membuktikan ini secara umum dengan menggunakan teorema lingkaran Gershgorin . Di sana pusat lingkaran yang berisi nilai eigen adalah elemen diagonal. Anda selalu dapat menambahkan "cukup" ke elemen diagonal untuk membuat semua lingkaran dalam setengah bidang nyata positif. Hasil itu lebih umum dan tidak diperlukan untuk ini.