Relaksasi Lagrangian dalam konteks regresi ridge

Dalam "Elemen Pembelajaran Statistik" (edisi ke-2), hal63, penulis memberikan dua formulasi berikut dari masalah regresi ridge:

{\hat{β}}^{r saya d g e} = \underset{β}{Argmin} {\sum_{saya = 1}^{N} (y_{saya} - β_{0} - \sum_{j = 1}^{hal} x_{saya j} β_{j})^{2} + λ \sum_{j = 1}^{hal} β_{j}^{2}}

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\}$

dan

{\hat{β}}^{r saya d g e} = \underset{β}{Argmin} \sum_{saya = 1}^{N} (y_{saya} - β_{0} - \sum_{j = 1}^{hal} x_{saya j} β_{j})^{2}, tunduk pada \sum_{j = 1}^{hal} β_{j}^{2} \leq t .

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq t.$

Dikatakan bahwa keduanya setara, dan bahwa ada korespondensi satu-ke-satu antara parameter dan . $\lambda$ $t$

Tampaknya formulasi pertama adalah relaksasi Lagrangian yang kedua. Namun, saya tidak pernah memiliki pemahaman intuitif tentang bagaimana atau mengapa relaksasi Lagrangian bekerja.

Adakah cara sederhana untuk menunjukkan bahwa kedua formulasi itu memang setara? Jika saya harus memilih, saya lebih suka intuisi daripada kekakuan.

Terima kasih.

ridge-regression

— NPE
sumber

Jika Anda hanya menginginkan penjelasan intuitif, buka 1.03.26 dari video ini (hingga akhir), ada penjelasan intuitif tentang bagaimana kendala terkait dengan fungsi tujuan.

— user603

Korespondensi dapat paling mudah ditampilkan menggunakan Teorema Amplop .

Pertama, Lagrangian standar akan memiliki istilah . Ini tidak akan memengaruhi masalah maksimalisasi jika kita hanya memperlakukan seperti yang diberikan, jadi Hastie dkk menjatuhkannya. $\lambda \cdot t$ $\lambda$

Sekarang, jika Anda membedakan Lagrangian lengkap sehubungan dengan , Teorema Envelope mengatakan Anda dapat mengabaikan efek tidak langsung dari sampai , karena Anda sedang maksimal. Yang tersisa adalah multipler Lagrange dari . $t$ $t$ $\beta$ $\lambda \cdot t$

Tapi apa artinya ini secara intuitif? Karena batasan mengikat maksimal, turunan dari Lagrangian, dievaluasi pada maksimum, adalah sama dengan deriviate tujuan semula. Oleh karena itu pengali Lagrange memberikan harga bayangan - nilai dalam hal tujuan - untuk mengendurkan kendala dengan meningkatkan . $t$

Saya menganggap ini adalah korespondensi Hastie et al. mengacu pada.

— Tristan
sumber