Mungkin perlu membaca tentang dualitas Lagrangian dan hubungan yang lebih luas (kadang-kadang setara) antara:
- optimisasi tunduk pada kendala keras (yaitu tidak dapat diganggu gugat)
- optimisasi dengan penalti karena melanggar batasan.
Pengenalan cepat ke dualitas yang lemah dan dualitas yang kuat
Asumsikan kita memiliki beberapa fungsi dari dua variabel. Untuk setiap x dan y , kita memiliki:f(x,y)x^y^
minxf(x,y^)≤f(x^,y^)≤maxyf(x^,y)
Sejak itu berlaku untuk setiap x dan y juga menyatakan bahwa:x^y^
maxyminxf(x,y)≤minxmaxyf(x,y)
Ini dikenal sebagai dualitas yang lemah . Dalam keadaan tertentu, Anda juga memiliki dualitas yang kuat (juga dikenal sebagai properti saddle point ):
maxyminxf(x,y)=minxmaxyf(x,y)
Ketika dualitas kuat bertahan, menyelesaikan masalah ganda juga memecahkan masalah primal. Mereka dalam arti masalah yang sama!
Lagrangian untuk Regresi Ridge terbatas
L
L(b,λ)=∑i=1n(y−xi⋅b)2+λ(∑j=1pb2j−t)
The min-max interpretation of the Lagrangian
The Ridge regression problem subject to hard constraints is:
minbmaxλ≥0L(b,λ)
You pick b to minimize the objective, cognizant that after b is picked, your opponent will set λ to infinity if you chose b such that ∑pj=1b2j>t.
If strong duality holds (which it does here because Slater's condition is satisfied for t>0), you then achieve the same result by reversing the order:
maxλ≥0minbL(b,λ)
Here, your opponent chooses λ first! You then choose b to minimize the objective, already knowing their choice of λ. The minbL(b,λ) part (taken λ as given) is equivalent to the 2nd form of your Ridge Regression problem.
As you can see, this isn't a result particular to Ridge regression. It is a broader concept.
References
(I started this post following an exposition I read from Rockafellar.)
Rockafellar, R.T., Convex Analysis
You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.