Bukti persamaan ekuivalen regresi ridge

15

Saya telah membaca buku-buku paling populer dalam pembelajaran statistik

Keduanya menyebutkan bahwa regresi ridge memiliki dua formula yang setara. Apakah ada bukti matematis yang dapat dimengerti dari hasil ini?

Saya juga melewati Cross Validated , tetapi saya tidak dapat menemukan bukti yang pasti di sana.

Lebih lanjut, akankah LASSO menikmati jenis bukti yang sama?

— jeza
sumber

2

en.wikipedia.org/wiki/…

— Taylor

1

Lasso bukan bentuk regresi ridge.

— Xi'an

@jeza, bisakah Anda menjelaskan apa yang hilang dalam jawaban saya? Benar-benar berasal semua dapat diturunkan tentang koneksi.

— Royi

@jeza, bisakah kamu spesifik? Kecuali Anda tahu konsep Lagrangian untuk masalah terbatas, sulit untuk memberikan jawaban yang ringkas.

— Royi

1

@jeza, masalah optimisasi terbatas dapat dikonversi menjadi optimasi fungsi Lagrangian / kondisi KKT (seperti yang dijelaskan dalam jawaban saat ini). Prinsip ini sudah memiliki banyak penjelasan sederhana yang berbeda di seluruh internet. Ke arah mana diperlukan lebih banyak penjelasan tentang bukti? Penjelasan / bukti pengali / fungsi Lagrangian, penjelasan / bukti bagaimana masalah ini merupakan kasus optimasi yang berhubungan dengan metode Lagrange, perbedaan KKT / Lagrange, penjelasan tentang prinsip regularisasi, dll?

— Sextus Empiricus

19

Regresi Ridge klasik ( Regulasi Tikhonov ) diberikan oleh:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

Klaim di atas adalah bahwa masalah berikut ini setara:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

Mari kita mendefinisikan sebagai solusi optimal dari masalah pertama dan sebagai solusi optimal dari masalah kedua. $\hat{x}$ $\tilde{x}$

Klaim berarti kesetaraan yang $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$ .
Yaitu Anda selalu dapat memiliki sepasang $t$ dan $\lambda \geq 0$ sehingga solusi dari masalahnya adalah sama.

Bagaimana kita bisa menemukan pasangan?
Nah, dengan menyelesaikan masalah dan melihat sifat-sifat solusinya.
Kedua masalah tersebut cembung dan halus sehingga harus membuat semuanya lebih sederhana.

Solusi untuk masalah pertama diberikan pada titik gradien hilang yang berarti:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

The KKT Kondisi negara-negara Masalah kedua:

\tilde{x} - y + 2 μ \tilde{x} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

dan

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

Persamaan terakhir menunjukkan bahwa $\mu = 0$ atau ${\left\| \tilde{x} \right\|}_{2}^{2} = t$ .

Perhatikan bahwa 2 persamaan dasar adalah setara.
yaitu $\hat{x} = \tilde{x}$ dan $\mu = \lambda$ kedua persamaan terus.

Jadi itu berarti bahwa dalam kasus ${\left\| y \right\|}_{2}^{2} \leq t$ seseorang harus menetapkan $\mu = 0$ yang berarti bahwa untuk $t$ cukup besar agar keduanya setara, harus ditetapkan $\lambda = 0$ .

Pada kasus lain, seseorang harus menemukan $\mu$ mana:

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

Ini pada dasarnya ketika ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Setelah Anda menemukan bahwa $\mu$ solusi akan bertabrakan.

Mengenai kasus ${L}_{1}$ (LASSO), yah, ia bekerja dengan ide yang sama.
Satu-satunya perbedaan adalah kita tidak memiliki solusi yang tertutup sehingga memperoleh koneksi lebih sulit.

Lihat jawaban saya di StackExchange Cross Validated Q291962 dan StackExchange Signal Processing Q21730 - Signifikansi $\lambda$ dalam Basis Pursuit .

Berkomentar
Apa yang sebenarnya terjadi?
Dalam kedua masalah, $x$ mencoba sedekat mungkin dengan $y$ .
Dalam kasus pertama, $x = y$ akan menghapus istilah pertama (The ${L}_{2}$ ) dan dalam kasus kedua itu akan membuat fungsi objektif menghilang.
Perbedaannya adalah bahwa dalam kasus pertama kita harus menyeimbangkan Norma ${L}_{2}$ dari $x$ . Sebagai $\lambda$ semakin tinggi keseimbangan berarti Anda harus membuat $x$ lebih kecil.
Dalam kasus kedua ada dinding, Anda membawa $x$ lebih dekat dan lebih dekat ke $y$ sampai Anda menabrak dinding yang merupakan kendala pada Norm (By $t$ ) -nya .
Jika temboknya cukup jauh (Nilai $t$ ) dan cukup tergantung pada norma $y$ maka saya tidak memiliki makna, sama seperti $\lambda$ relevan hanya nilainya dikalikan dengan norma $y$ mulai bermakna.
Koneksi yang tepat adalah oleh Lagrangian yang disebutkan di atas.

Sumber daya

Saya menemukan makalah ini hari ini (03/04/2019):

Kekerasan Perkiraan untuk Kelas Masalah Optimalisasi Jarang .

— Royi
sumber

apakah yang setara berarti bahwa \ lambda dan \ t harus sama. Karena saya tidak bisa melihat itu di buktinya. Terima kasih

— jeza

@jeza, Seperti yang saya tulis di atas, untuk

ada

(Tidak harus sama dengan

t

$t$

λ \geq 0

$\lambda \geq 0$

tetapi fungsi

dan data

) sehingga solusi dari dua bentuk itu sama.

t

$t$

t

$t$

y

$y$

— Royi

3

@jeza, keduanya

&

pada dasarnya adalah parameter gratis di sini. Setelah Anda menentukan, katakanlah,

, yang menghasilkan solusi optimal spesifik. Tapi

tetap menjadi parameter gratis. Jadi pada titik ini klaimnya adalah bahwa ada beberapa nilai

yang akan menghasilkan solusi optimal yang sama. Pada dasarnya tidak ada kendala pada apa yang

harus; tidak seperti itu harus menjadi fungsi tetap

, seperti

atau sesuatu.

λ

$\lambda$

t

$t$

λ

$\lambda$

t

$t$

t

$t$

t

$t$

λ

$\lambda$

t = λ / 2

$t=\lambda/2$

— gung - Reinstate Monica

@Royi, saya ingin tahu 1 - mengapa rumus Anda memiliki (1/2), sedangkan formula yang dimaksud tidak? 2- apakah menggunakan KKT untuk menunjukkan kesetaraan dari kedua formula? 3 - jika ya, saya masih tidak bisa melihat kesetaraan itu. Saya tidak yakin tetapi apa yang saya harapkan untuk dilihat adalah bukti untuk menunjukkan bahwa formula satu = formula dua.

— jeza

1. Lebih mudah ketika Anda membedakan istilah LS. Anda dapat memindahkan bentuk

saya ke OP

dengan faktor dua. 2. Saya menggunakan KKT untuk kasus ke-2. Kasus pertama tidak memiliki kendala, maka Anda bisa menyelesaikannya. 3. Tidak ada persamaan bentuk tertutup di antara mereka. Saya menunjukkan logika dan bagaimana Anda dapat membuat grafik yang menghubungkan mereka. Tetapi ketika saya menulis itu akan berubah untuk setiap

(Ini tergantung data).

λ

$\lambda$

λ

$\lambda$

y

$y$

— Royi

9

Pendekatan yang kurang tepat secara matematis, tetapi mungkin lebih intuitif, untuk memahami apa yang sedang terjadi adalah memulai dengan versi kendala (persamaan 3.42 dalam pertanyaan) dan menyelesaikannya menggunakan metode "Pengali Lagrange" ( https: //en.wikipedia .org / wiki / Lagrange_multiplier atau teks kalkulus multivarian favorit Anda). Ingatlah bahwa dalam kalkulus adalah vektor variabel, tetapi dalam kasus kami $x$ $x$ adalah konstan dan adalah vektor variabel. Setelah Anda menerapkan teknik pengali Lagrange Anda berakhir dengan persamaan pertama (3,41) (setelah membuang ekstra $\beta$ yang konstan relatif terhadap minimisasi dan dapat diabaikan). $-\lambda t$

Ini juga menunjukkan bahwa ini berfungsi untuk laso dan kendala lainnya.

— Greg Snow
sumber

8

Mungkin perlu membaca tentang dualitas Lagrangian dan hubungan yang lebih luas (kadang-kadang setara) antara:

optimisasi tunduk pada kendala keras (yaitu tidak dapat diganggu gugat)
optimisasi dengan penalti karena melanggar batasan.

Pengenalan cepat ke dualitas yang lemah dan dualitas yang kuat

Asumsikan kita memiliki beberapa fungsi dari dua variabel. Untuk setiap dan , kita memiliki: $f(x,y)$ $\hat{x}$ $\hat{y}$

min_{x} f (x, \hat{y}) \leq f (\hat{x}, \hat{y}) \leq max_{y} f (\hat{x}, y)

$\min_x f(x, \hat{y}) \leq f(\hat{x}, \hat{y}) \leq \max_y f(\hat{x}, y)$

Sejak itu berlaku untuk setiap dan juga menyatakan bahwa: $\hat{x}$ $\hat{y}$

max_{y} min_{x} f (x, y) \leq min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) \leq \min_x \max_y f(x, y)$

Ini dikenal sebagai dualitas yang lemah . Dalam keadaan tertentu, Anda juga memiliki dualitas yang kuat (juga dikenal sebagai properti saddle point ):

max_{y} min_{x} f (x, y) = min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) = \min_x \max_y f(x, y)$

Ketika dualitas kuat bertahan, menyelesaikan masalah ganda juga memecahkan masalah primal. Mereka dalam arti masalah yang sama!

Lagrangian untuk Regresi Ridge terbatas

$\mathcal{L}$

L (b, λ) = \sum_{i = 1}^{n} (y - x_{i} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t)

$\mathcal{L}(\mathbf{b}, \lambda) = \sum_{i=1}^n (y - \mathbf{x}_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right)$

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

min_{b} max_{λ \geq 0} L (b, λ)

$\min_\mathbf{b} \max_{\lambda \geq 0} \mathcal{L}(\mathbf{b}, \lambda)$

You pick $\mathbf{b}$ to minimize the objective, cognizant that after $\mathbf{b}$ is picked, your opponent will set $\lambda$ to infinity if you chose $\mathbf{b}$ such that $\sum_{j=1}^p b_j^2 > t$ .

If strong duality holds (which it does here because Slater's condition is satisfied for $t>0$ ), you then achieve the same result by reversing the order:

max_{λ \geq 0} min_{b} L (b, λ)

$\max_{\lambda \geq 0} \min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$

Here, your opponent chooses $\lambda$ first! You then choose $\mathbf{b}$ to minimize the objective, already knowing their choice of $\lambda$ . The $\min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$ part (taken $\lambda$ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.

— Matthew Gunn
sumber

note that your answer can be extended to any convex function.

— 81235

6

They are not equivalent.

For a constrained minimization problem

\begin{matrix} (1) & min_{b} \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} s . t . \sum_{j = 1}^{p} b_{j}^{2} \leq t, b = (b_{1}, . . ., b_{p}) \end{matrix}

$\min_{\mathbf b} \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2\\ s.t. \sum_{j=1}^p b_j^2 \leq t,\;\;\; \mathbf b = (b_1,...,b_p) \tag{1}$

we solve by minimize over $\mathbf b$ the corresponding Lagrangean

\begin{matrix} (2) & Λ = \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t) \end{matrix}

$\Lambda = \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right) \tag{2}$

Here, $t$ is a bound given exogenously, $\lambda \geq 0$ is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and $\lambda$ are to be determined optimally through the minimization procedure given $t$ .

Comparing $(2)$ and eq $(3.41)$ in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

\begin{matrix} (3) & min_{b} {Λ + λ t} \end{matrix}

$\min_{\mathbf b}\{\Lambda + \lambda t\} \tag{3}$

Since in $(3)$ the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve $\mathbf b$ , it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over $\mathbf b$ given $\lambda >0$ . But, in the lens of the constrained minimization problem, assuming $\lambda >0$ imposes the condition that the constraint is binding, i.e that

\sum_{j = 1}^{p} (b_{j, r i d g e}^{*})^{2} = t

$\sum_{j=1}^p (b^*_{j,ridge})^2 = t$

The general constrained minimization problem allows for $\lambda = 0$ also, and essentially it is a formulation that includes as special cases the basic least-squares estimator ( $\lambda ^*=0$ ) and the Ridge estimator ( $\lambda^* >0$ ).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.

— Alecos Papadopoulos
sumber

@MartijnWeterings Thanks for the comment, I have reworked my answer.

— Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.

— Alecos Papadopoulos

1

This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses

λ \geq 0

$\lambda \geq 0$ instead of

λ > 0

$\lambda > 0$ and we could just as well add the constrain

t < ‖ β^{O L S} ‖_{2}^{2}

$t < \Vert \beta^{OLS} \Vert^2_2$ to exclude the cases where

λ = 0

$\lambda=0$ ) .

— Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).

— Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.

— Sextus Empiricus