Di bawah kondisi apa regresi ridge mampu memberikan peningkatan dibandingkan regresi kuadrat terkecil biasa?

Ridge perkiraan regresi parameter $\boldsymbol \beta$ dalam model linear $\mathbf y = \mathbf X \boldsymbol \beta$ oleh di mana adalah parameter regularisasi. Sudah diketahui bahwa sering berkinerja lebih baik daripada regresi OLS (dengan ) ketika ada banyak prediktor yang berkorelasi.

{\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y,

$\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,$

λ

$\lambda$

λ = 0

$\lambda=0$

Teorema eksistensi untuk regresi ridge mengatakan bahwa ada selalu ada parameter $\lambda^* > 0$ sehingga rata-kuadrat-kesalahan secara ketat lebih kecil dari rata-kuadrat-kesalahan dari OLS estimasi . Dengan kata lain, nilai optimal selalu tidak nol. Ini tampaknya pertama kali terbukti di Hoerl dan Kennard, 1970 dan diulangi dalam banyak catatan kuliah yang saya temukan online (misalnya di sini dan di sini ). Pertanyaan saya adalah tentang asumsi teorema ini: $\hat{\boldsymbol \beta}_\lambda$ $\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0$ $\lambda$

Apakah ada asumsi tentang matriks kovarians $\mathbf X^\top \mathbf X$ ?
Adakah asumsi tentang dimensi $\mathbf X$ ?

Secara khusus, apakah teorema itu masih benar jika prediktornya ortogonal (yaitu $\mathbf X^\top \mathbf X$ diagonal), atau bahkan jika $\mathbf X^\top \mathbf X=\mathbf I$ ? Dan apakah masih benar jika hanya ada satu atau dua prediktor (katakanlah, satu prediktor dan intersep)?

Jika teorema tidak membuat asumsi seperti itu dan tetap benar bahkan dalam kasus-kasus ini, maka mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor berkorelasi, dan tidak pernah (?) Direkomendasikan untuk regresi sederhana (yaitu tidak berganda)?

Ini terkait dengan pertanyaan saya tentang pandangan Unified pada susut: apa hubungan (jika ada) antara paradoks Stein, regresi ridge, dan efek acak dalam model campuran? , tetapi tidak ada jawaban yang menjelaskan poin ini sampai sekarang.

regression ridge-regression shrinkage

— amuba kata Reinstate Monica
sumber

Tampaknya semua kecuali pertanyaan terakhir secara langsung dibahas dalam makalah Hoerl & Kennard, terutama dalam kalimat pertama Pendahuluan dan kalimat pertama Kesimpulan. Pertanyaan terakhir dapat dijawab dengan mencatat kovarians antara vektor konstan dan setiap prediktor tunggal selalu nol, yang memungkinkan seseorang (dalam cara yang standar) untuk mengurangi

matriks.

X^{'} X

$\mathbf{X^\prime X}$

1 \times 1

$1\times 1$

— whuber

Terima kasih, @whuber. Saya percaya bahwa makalah Hoerl & Kennard menjawab pertanyaan saya (setidaknya yang teknis) - orang harus dapat mengikuti bukti dan memeriksa asumsi (saya belum melakukannya). Tapi saya tidak sepenuhnya yakin dengan kalimat yang Anda maksud. Bagaimana kalimat pertama Pengantar terkait dengan pertanyaan saya? Kalimat pertama Kesimpulan memang menunjukkan bahwa jika

memiliki spektrum seragam (misalnya sama dengan

) maka teorema tidak berlaku. Tetapi saya tidak 100% yakin, karena saya tidak melihat asumsi ini secara eksplisit dinyatakan sebelum bukti.

X^{⊤} X

$\mathbf X^\top \mathbf X$

I

$\mathbf I$

— Amoeba berkata Reinstate Monica

Lihat jenis pertanyaan apa yang dapat ditanyakan oleh pengguna tingkat tinggi (yang biasanya hanya menjawabnya ) (dan juga untuk pertanyaan terkait lainnya yang mengirim saya ke sini stats.stackexchange.com/questions/122062/… !

— javadba

Jawaban untuk 1 dan 2 adalah tidak, tetapi diperlukan kehati-hatian dalam menafsirkan teorema keberadaan.

Varians dari Penaksir Ridge

Biarkan menjadi estimasi ridge di bawah penalti , dan biarkan menjadi parameter sebenarnya untuk model $\hat{\beta^*}$ $k$ $\beta$ . Mari menjadi nilai eigen dari . Dari persamaan Hoerl & Kennard 4.2-4.5, risikonya, (dalam halnorma kesalahan yang diharapkan) adalah $Y = X \beta + \epsilon$ $\lambda_1, \dotsc, \lambda_p$ $X^T X$
$L^2$

mana sejauh yang saya tahu, Mereka berkomentar bahwamemiliki interpretasi varian produk dalam, sedangkan

\begin{aligned} E ({[\hat{β^{*}} - β]}^{T} [\hat{β^{*}} - β]) & = σ^{2} \sum_{j = 1}^{p} λ_{j} / {(λ_{j} + k)}^{2} + k^{2} β^{T} {(X^{T} X + k I_{p})}^{- 2} β \\ = γ_{1} (k) + γ_{2} (k) \\ = R (k) \end{aligned}

$\begin{align*} E \left( \left[ \hat{\beta^*} - \beta \right]^T \left[ \hat{\beta^*} - \beta \right] \right)& = \sigma^2 \sum_{j=1}^p \lambda_j/ \left( \lambda_j +k \right)^2 + k^2 \beta^T \left( X^T X + k \mathbf{I}_p \right)^{-2} \beta \\ & = \gamma_1 (k) + \gamma_2(k) \\ & = R(k) \end{align*}$

{(X^{T} X + k I_{p})}^{- 2} = {(X^{T} X + k I_{p})}^{- 1} {(X^{T} X + k I_{p})}^{- 1} .

$\left( X^T X + k \mathbf{I}_p \right)^{-2} = \left( X^T X + k \mathbf{I}_p \right)^{-1} \left( X^T X + k \mathbf{I}_p \right)^{-1}.$

γ_{1}

$\gamma_1$

\hat{β^{*}} - β

$\hat{\beta^*} - \beta$

γ_{2}

$\gamma_2$ adalah produk dalam bias.

Misalkan , lalu $X^T X = \mathbf{I}_p$ Misalkan

R (k) = \frac{p σ^{2} + k^{2} β^{T} β}{(1 + k)^{2}} .

$R(k) = \frac{p \sigma^2 + k^2 \beta^T \beta}{(1+k)^2}.$

menjadi turunan dari risiko w / r / t

. Karena

, kami menyimpulkan bahwa ada beberapa

sehingga

R^{'} (k) = 2 \frac{k (1 + k) β^{T} β - (p σ^{2} + k^{2} β^{T} β)}{(1 + k)^{3}}

$R^\prime (k) = 2\frac{k(1+k)\beta^T \beta - (p\sigma^2 + k^2 \beta^T \beta)}{(1+k)^3}$

k

$k$

lim_{k \to 0^{+}} R^{'} (k) = - 2 p σ^{2} < 0

$\lim_{k \rightarrow 0^+} R^\prime (k) = -2p \sigma^2 < 0$

k^{*} > 0

$k^*>0$

R (k^{*}) < R (0)

$R(k^*)<R(0)$

Para penulis berkomentar bahwa ortogonalitas adalah yang terbaik yang dapat Anda harapkan dalam hal risiko pada , dan sebagai jumlah kondisi dari $k=0$ meningkat, pendekatan . $X^T X$ $\lim_{k \rightarrow 0^+} R^\prime (k)$ $- \infty$

Komentar

Tampaknya ada paradoks di sini, dalam hal jika dan adalah konstan, maka kita hanya memperkirakan rata-rata dari urutan Normal $p=1$ $X$ variabel , dan kita tahu bahwa estimasi vanilla bias dapat diterima di kasus ini. Ini diselesaikan dengan memperhatikan bahwa di atas penalaran hanya menyediakan bahwa nilai meminimalkan dari ada untuk tetap . Tetapi untuk setiap , kita dapat membuat risiko meledak dengan membuat besar, jadi argumen ini saja tidak menunjukkan penerimaan untuk estimasi punggungan. $(\beta, \sigma^2)$ $k$ $\beta^T \beta$ $k$ $\beta^T \beta$

Mengapa regresi ridge biasanya direkomendasikan hanya dalam kasus prediktor yang berkorelasi?

Derivasi risiko H&K menunjukkan bahwa jika kita memikirkannya $\beta ^T \beta$ $X^T X$ $\beta$ $E Y$ $X$ dicurigai - matriks kovarians besar adalah gejala dari itu.

Tetapi jika tujuan Anda semata-mata prediksi, kekhawatiran inferensial tidak lagi berlaku, dan Anda memiliki argumen yang kuat untuk menggunakan beberapa jenis estimator penyusutan.

— Andrew M
sumber

β

$\beta$

k

$k$

k

$k$

k = 0

$k=0$

X^{'} X

$X^\prime X$

\hat{β^{*}} = Z \hat{β}

$\hat{\beta^*} = Z \hat{\beta}$

\hat{β}

$\hat{\beta}$

Z = {((X^{T} X)^{- 1} + k I_{p})}^{- 1}

$Z = \left( (X^TX)^{-1} + k I_p \right)^{-1}$

X^{T} X

$X^TX$

k

$k$

\hat{β^{*}} \approx 0

$\hat{\beta^*} \approx 0$

β^{T} β

$\beta^T \beta$

λ

$\lambda$