Bagaimana cara mencari koefisien regresi

Dalam regresi ridge, fungsi tujuan harus diminimalkan adalah:

RSS + λ \sum β_{j}^{2} .

$\text{RSS}+\lambda \sum\beta_j^2.$

Bisakah ini dioptimalkan menggunakan metode pengali Lagrange? Atau apakah itu diferensiasi langsung?

regression regularization ridge-regression

— Minaj
sumber

Apa hubungan antara judul (yang berfokus pada

λ

$\lambda$ ) dan pertanyaan (yang tampaknya hanya tentang

β_{j}

$\beta_j$ )? Saya khawatir bahwa "dioptimalkan" dapat memiliki interpretasi yang jelas berbeda tergantung pada variabel mana yang dianggap yang dapat bervariasi dan mana yang harus diperbaiki.

— Whuber

terima kasih memodifikasi pertanyaan. Saya telah membaca bahwa

λ

$\lambda$ ditemukan oleh validasi silang - tetapi saya percaya itu berarti Anda sudah memiliki

β_{j}

$\beta_j$ dan menggunakan data yang berbeda untuk menemukan

terbaik.

λ

$\lambda$ Pertanyaannya adalah - bagaimana Anda menemukan

β_{j}

$\beta_j$ di tempat pertama? Kapan

λ

$\lambda$ tidak diketahui?

— Minaj

Ada dua formulasi untuk masalah punggungan. Yang pertama adalah

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β)

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$

tunduk pada

\sum_{j} β_{j}^{2} \leq s .

$\sum_{j} \beta_j^2 \leq s.$

Formulasi ini menunjukkan batasan ukuran pada koefisien regresi. Perhatikan apa yang tersirat dari batasan ini; kami memaksa koefisien untuk berbaring di bola di sekitar titik asal dengan jari-jari . $\sqrt{s}$

Formulasi kedua adalah masalah Anda

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β) + λ \sum β_{j}^{2}

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2$

yang dapat dipandang sebagai formulasi pengali Largrange. Perhatikan bahwa di sini adalah parameter penyetelan dan nilai yang lebih besar akan menyebabkan penyusutan yang lebih besar. Anda dapat melanjutkan untuk membedakan ekspresi sehubungan dengan dan mendapatkan penaksir ridge yang terkenal $\lambda$ $\boldsymbol{\beta}$

\begin{matrix} (1) & β_{R} = {(X^{'} X + λ I)}^{- 1} X^{'} y \end{matrix}

$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$

Kedua formulasi sepenuhnya sama , karena ada korespondensi satu-ke-satu antara dan . $s$ $\lambda$

Biarkan saya menguraikan sedikit tentang itu. Bayangkan bahwa Anda berada di ideal orthogonal kasus, . Ini adalah situasi yang sangat disederhanakan dan tidak realistis, tetapi kita dapat menyelidiki estimator sedikit lebih dekat jadi bersabarlah. Pertimbangkan apa yang terjadi pada persamaan (1). Estimator punggungan dikurangi menjadi $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$

β_{R} = {(I + λ I)}^{- 1} X^{'} y = {(I + λ I)}^{- 1} β_{O L S}

$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS}$

seperti dalam kasus ortogonal, estimator OLS diberikan oleh . Melihat komponen ini sekarang kita dapatkan $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$

\begin{matrix} (2) & β_{R} = \frac{β_{O L S}}{1 + λ} \end{matrix}

$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$

Perhatikan bahwa sekarang penyusutannya konstan untuk semua koefisien. Ini mungkin tidak terus dalam kasus umum dan memang dapat ditunjukkan bahwa susut akan berbeda secara luas jika ada degeneracies di matriks. $\mathbf{X}^{\prime} \mathbf{X}$

Tetapi mari kita kembali ke masalah optimasi yang dibatasi. Menurut teori KKT , syarat yang diperlukan untuk optimalitas adalah

λ (\sum β_{R, j}^{2} - s) = 0

$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$

sehingga baik atau $\lambda = 0$ (dalam hal ini kita mengatakan bahwa kendala yang mengikat). Jikamaka tidak ada penalti dan kami kembali dalam situasi OLS biasa. Anggaplah bahwa batasannya mengikat dan kita berada dalam situasi kedua. Dengan menggunakan rumus dalam (2), kita miliki $\sum \beta_{R,j} ^2 -s = 0$ $\lambda = 0$

s = \sum β_{R, j}^{2} = \frac{1}{{(1 + λ)}^{2}} \sum β_{O L S, j}^{2}

$s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$

dari mana kita dapatkan

λ = \sqrt{\frac{\sum β_{O L S, j}^{2}}{s}} - 1

$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1$

hubungan satu-ke-satu yang sebelumnya diklaim. Saya berharap ini lebih sulit untuk dibangun dalam kasus non-ortogonal tetapi hasilnya tetap ada.

Lihat lagi (2) dan Anda akan melihat kita masih melewatkan . Untuk mendapatkan nilai optimal untuk itu, Anda dapat menggunakan validasi silang atau melihat jejak bubungan. Metode terakhir melibatkan membangun urutan dalam (0,1) dan melihat bagaimana estimasi berubah. Anda kemudian memilih yang menstabilkan mereka. Metode ini disarankan dalam referensi kedua di bawah ini dan merupakan yang tertua. $\lambda$ $\lambda$ $\lambda$

Referensi

Hoerl, Arthur E., dan Robert W. Kennard. "Regresi Ridge: Estimasi bias untuk masalah yang bukan ortogonal." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E., dan Robert W. Kennard. "Regresi punggungan: aplikasi untuk masalah-masalah nonorthogonal." Technometrics 12.1 (1970): 69-82.

— JohnK
sumber

Regresi @Minaj Ridge memiliki penyusutan konstan untuk semua koefisien (selain intersep). Itu sebabnya hanya ada satu pengali.

— JohnK

@amoeba Ini adalah saran dari Hoerl dan Kennard, orang-orang yang memperkenalkan regresi ridge pada 1970-an. Berdasarkan pengalaman mereka - dan saya - koefisien akan stabil dalam interval itu bahkan dengan tingkat multikolinearitas yang ekstrim. Tentu saja, ini adalah strategi empiris dan karenanya tidak dijamin untuk bekerja setiap saat.

— JohnK

Anda juga bisa melakukan metode observasi semu dan mendapatkan estimasi dengan tidak lebih rumit daripada program regresi kuadrat lurus. Anda juga dapat menyelidiki efek mengubah

dengan cara yang serupa.

λ

$\lambda$

— Glen_b -Reinstate Monica

@amoeba Memang benar bahwa punggungan tidak invarian skala, itu sebabnya itu adalah praktik umum untuk membakukan data sebelumnya. Saya telah menyertakan referensi yang relevan jika Anda ingin melihatnya. Mereka sangat menarik dan tidak terlalu teknis.

— JohnK

@JohnK dalam efek ridge regression menyusut setiap

dengan jumlah yang berbeda, sehingga susutnya tidak konstan walaupun hanya ada satu parameter susut

β

$\beta$

λ

$\lambda$

— Frank Harrell

$\lambda$ $\hat{\beta}$ rmspentrace $\lambda$

— Frank Harrell
sumber

λ

$\lambda$

Saya belum mempelajarinya. LOOCV membutuhkan banyak perhitungan.

— Frank Harrell

Tidak jika rumus eksplisit digunakan: stats.stackexchange.com/questions/32542 .

— Amuba kata Reinstate Monica

Formula itu bekerja untuk kasus khusus OLS, bukan untuk kemungkinan maksimum secara umum. Tetapi ada rumus perkiraan menggunakan sisa skor. Saya menyadari bahwa kita terutama berbicara tentang OLS dalam diskusi ini.

— Frank Harrell

Saya tidak melakukannya secara analitis, melainkan secara numerik. Saya biasanya memplot RMSE vs λ seperti:

Gambar 1. RMSE dan konstanta λ atau alpha.

— Lennart
sumber

λ

$\lambda$

β_{j}

$\beta_j$

λ

$\lambda$ ?

— Minaj