Formulasi regresi punggungan sebagai dibatasi versus dihukum: Bagaimana persamaannya?

Saya keliru memahami klaim tentang metode regresi linier yang saya lihat di berbagai tempat. Parameter masalah adalah:

Memasukkan:

$N$ data sampel $p+1$ jumlah masing-masing terdiri dari "respons" jumlah $y_i$ dan $p$ "prediktor" jumlah $x_{ij}$

Hasil yang diinginkan adalah "kecocokan linear yang baik" yang memprediksi respons berdasarkan pada prediksi di mana kecocokan yang baik memiliki perbedaan kecil antara prediksi dan respons yang diamati (di antara kriteria lain).

Output: koefisien mana adalah "kecocokan" untuk memprediksi jumlah respons dari jumlah prediktor. $p+1$ $\beta_j$ $\beta_0 + \sum_{j=1}^p x_{ij} * \beta_j$

Saya bingung tentang pendekatan "regresi ridge" untuk masalah ini. Dalam "Elemen Pembelajaran Statistik" oleh Hastie, Tibshirani, dan Friedman halaman 67 regresi ridge dirumuskan dalam dua cara.

Pertama sebagai masalah optimasi terbatas :

{a r g m i n}_{β} \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$ tunduk pada batasan

\sum_{j = 1}^{p} β_{i}^{2} \leq t

$\sum_{j=1}^p \beta_i^2 \leq t$ untuk beberapa parameter positif t.

Kedua adalah masalah optimisasi yang dihukum : untuk beberapa parameter positif .

{a r g m i n}_{β} (λ \sum_{j = 1}^{p} β_{j}^{2}) + \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta ( \lambda \sum_{j=1}^p { \beta_j^2 } ) + \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$

λ

$\lambda$

Teks mengatakan bahwa formulasi ini sama dan ada "korespondensi satu ke satu antara parameter dan ". Saya telah melihat klaim ini (dan yang serupa) di beberapa tempat selain buku ini. Saya pikir saya kehilangan sesuatu karena saya tidak melihat bagaimana formulasi itu setara seperti yang saya mengerti. $\lambda$ $t$

Pertimbangkan kasus di mana dan dengan , dan , . Memilih parameter formulasi dibatasi menjadi: $N=2$ $p=1$ $y_1=0$ $x_{1,1}=0$ $y_2=1$ $x_{1,2}=1$ $t=2$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

diperluas ke

{a r g m i n}_{β_{0}, β_{1}} (2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

Untuk mengatasi ini temukan solusi di mana turunan parsial sehubungan dengan dan nol: dengan solusi dan . Perhatikan bahwa sesuai kebutuhan. $\beta_0$ $\beta_1$

4 β_{0} + 2 β_{1} - 2 = 0

$4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} - 2 = 0$

β_{0} = 0

$\beta_0 = 0$

β_{1} = 1

$\beta_1 = 1$

β_{0}^{2} + β_{1}^{2} \leq t

$\beta_0^2 + \beta_1^2 \le t$

Bagaimana derivasi ini berhubungan dengan formulasi lain? Menurut penjelasan ada beberapa nilai unik sesuai dengan mana jika kita mengoptimalkan formulasi hukuman dari masalah, kita akan mendapatkan dan . Dalam hal ini formulir yang dikenai sanksi menjadi diperluas ke Untuk mengatasi ini cari solusi di mana sebagian derivatif dengan sehubungan dengan $\lambda$ $t$ $\beta_0$ $\beta_1$

{a r g m i n}_{β_{0}, β_{1}} (λ (β_{0}^{2} + β_{1}^{2}) + β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \lambda (\beta_0^2 + \beta_1^2) + \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} λ + 2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} λ + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( \beta_{0}^{2} \lambda + 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} \lambda + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

β_{0}

$\beta_0$ dan nol: untuk persamaan ini saya mendapatkan solusinya Jika itu benar, satu-satunya cara untuk mendapatkan adalah dengan mengatur . Namun itu akan sama kita perlukan untuk , jadi apa yang mereka maksud dengan "korespondensi satu ke satu"?

β_{1}

$\beta_1$

2 β_{0} λ + 4 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} \lambda + 4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} λ + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} \lambda + 2 \beta_{1} - 2 = 0$

β_{0} = λ / (λ^{2} + 3 λ + 1)

$\beta_0 = \lambda/(\lambda^2 + 3\lambda + 1)$

β_{1} = (λ + 1) / ((λ + 1) (λ + 2) - 1)

$\beta_1 = (\lambda + 1)/((\lambda + 1)(\lambda + 2) - 1)$

β_{0} = 0

$\beta_0 = 0$

λ = 0

$\lambda = 0$

λ

$\lambda$

t = 4

$t = 4$

Singkatnya, saya benar-benar bingung dengan dua presentasi dan saya tidak mengerti bagaimana mereka berhubungan satu sama lain. Saya tidak mengerti bagaimana Anda bisa mengoptimalkan satu formulir dan mendapatkan solusi yang sama untuk formulir lain atau bagaimana terkait dengan . Ini hanya satu contoh dari korespondensi semacam ini - ada yang lain untuk pendekatan lain seperti laso - dan saya tidak mengerti satupun dari mereka. $\lambda$ $t$

Seseorang tolong bantu saya.

regression ridge-regression

— pengguna101311
sumber

Terkait: stats.stackexchange.com/questions/190993 (lihat jawaban yang diterima).

— amoeba

Tautan "terkait" menegaskan kembali korespondensi yang dibahas dalam pertanyaan tanpa menjawab pertanyaan ini atau contoh kasus yang ditunjukkan. Saya tidak berpikir itu menjawab pertanyaan ini.

— Aaron Watters

Jawaban:

Kebingungan di sini berasal dari mencoba untuk bekerja dalam kisaran nilai atau mana tidak ada kendala pada regresi. $t$ $\lambda$

Dalam contoh Anda, pada garis regresi yang sesuai dengan tepat jumlah kuadrat dari koefisien regresi adalah 1. Jadi nilai (atau nilai yang 1 atau lebih besar) tidak menempatkan kendala pada regresi. Dalam ruang nilai , seluruh regresi yang tidak dibatasi diwakili oleh . Tidak ada korespondensi satu-ke-satu antara dan dalam regresi yang tidak dibatasi ; semua nilai dari 1 atau lebih besar dalam hal ini sesuai dengan . Itu adalah wilayah yang Anda selidiki. $t=2$ $t$ $\lambda$ $\lambda = 0$ $t$ $\lambda$ $t$ $\lambda=0$

Hanya nilai kurang dari 1 yang akan menempatkan kendala pada regresi, sesuai dengan nilai positif . Seperti jawaban yang diterima untuk halaman ini menunjukkan, korespondensi satu-ke-satu antara dan berlaku " ketika kendala mengikat ," dalam contoh Anda untuk nilai kurang dari 1. $t$ $\lambda$ $t$ $\lambda$ $t$

— EdM
sumber

Dalam hal itu mereka harus menyatakan bahwa kendala harus mengikat. Maksud Anda, kami harus memiliki agar persamaannya valid?

\sum β_{j}^{2} = t

$\sum \beta_j^2 = t$

— Aaron Watters

Dalam keadilan, saya tidak berpikir bahwa orang terlalu khawatir tentang detail optimasi terbatas ketika kendala tidak mengikat. Maka Anda hanya mendapatkan solusi kuadrat-terkecil. Ketika kendala mengikat optimasi harus memberikan hasil yang unik pada batas set kendala sehingga , memberikan satu-ke-satu kesetaraan dengan dalam keadaan itu.

\sum β_{j}^{2} = t

$\sum{\beta_j^2} = t$

t

$t$

λ

$\lambda$

— EdM

+1. Jika batasannya tidak mengikat maka masih ada korespondensi antara dan tapi itu tidak satu-ke-satu: peta mengikat apa pun ke sebagaimana dihitung dengan benar oleh @ Harun.

t

$t$

λ

$\lambda$

t

$t$

λ = 0

$\lambda=0$

— amoeba

FYI, saya seorang programmer. Penting untuk mengetahui kapan suatu metode tepat ketika Anda menulis program komputer. "Kendala harus mengikat" tampaknya dihilangkan dari banyak presentasi metode ini.

— Aaron Watters

Regresi Ridge klasik ( Regulasi Tikhonov ) diberikan oleh:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

Klaim di atas adalah bahwa masalah berikut ini setara:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

Mari kita mendefinisikan sebagai solusi optimal dari masalah pertama dan sebagai solusi optimal dari masalah kedua. $\hat{x}$ $\tilde{x}$

Klaim kesetaraan berarti bahwa . Yaitu Anda selalu dapat memiliki sepasang dan sehingga solusi masalahnya sama. $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$
$t$ $\lambda \geq 0$

Bagaimana kita bisa menemukan pasangan?
Nah, dengan menyelesaikan masalah dan melihat sifat-sifat solusinya.
Kedua masalah tersebut cembung dan halus sehingga harus membuat semuanya lebih sederhana.

Solusi untuk masalah pertama diberikan pada titik gradien hilang yang berarti:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

The KKT Kondisi negara-negara Masalah kedua:

\tilde{x} - y + 2 μ \tilde{x} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

dan

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

Persamaan terakhir menunjukkan bahwa atau . $\mu = 0$ ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Perhatikan bahwa 2 persamaan dasar adalah setara.
Yaitu jika dan kedua persamaan ditahan. $\hat{x} = \tilde{x}$ $\mu = \lambda$

Jadi itu artinya dalam kasus kita harus menetapkan yang berarti bahwa untuk cukup besar agar keduanya sama, kita harus mengatur . ${\left\| y \right\|}_{2}^{2} \leq t$ $\mu = 0$ $t$ $\lambda = 0$

Pada kasus lain, orang harus menemukan mana: $\mu$

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

Ini pada dasarnya ketika ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Setelah Anda menemukan bahwa solusi akan bertabrakan. $\mu$

Mengenai kasus , well, ia bekerja dengan ide yang sama. Satu-satunya perbedaan adalah kita tidak memiliki solusi yang tertutup sehingga memperoleh koneksi lebih sulit. ${L}_{1}$

Lihatlah jawaban saya di StackExchange Cross Validated Q291962 dan StackExchange Signal Processing Q21730 - Signifikansi dalam Basis Pursuit $\lambda$ .

— Royi
sumber

Dari mana datangnya mu?

— tatami

Di atas memecahkan 2 masalah yang berbeda. Karena yang pertama menggunakan saya menggunakan sebagai Pengali Lagrange untuk kendala ketidaksetaraan yang ke-2.

λ

$\lambda$

μ

$\mu$

— Royi