Regulasi dan proyeksi ke

Saya mencoba memahami bagaimana regularisasi bekerja dalam hal proyeksi ke a $l_*$ bola, dan proyeksi Euclidean ke simpleks.

Saya tidak yakin saya mengerti apa yang kami maksud ketika kami memproyeksikan vektor bobot ke $l_1$ atau $l_2$ bola.

Saya bisa mengerti konsep $l_1$ program regularisasi, seperti dalam, kita pergi melalui setiap elemen dalam vektor bobot, dan menerapkan di signum(w) * max(0.0, abs(w) - shrinkageValue)mana shrinkageValue = regularizationParameter * eta, dengan demikian mengarahkan bobot kecil ke 0.

Saya kira saya kehilangan beberapa matematika di sini, jadi pertanyaan saya adalah bagaimana kita menerjemahkan proyeksi vektor ke dalam program yang baru saja saya jelaskan? Bagaimana proyeksi regularisasi dan vektor terhubung?

Sunting: Saya sedang mencoba melalui makalah ini Proyeksi Efisien ke $l_1$ -Ball untuk Belajar dalam Dimensi Tinggi

optimization regularization projection

— Batang
sumber

Proyeksi regularisasi dan vektor terhubung melalui ide optimasi terbatas dan kondisi Karush-Kuhn (tidak ada hubungan) .

Bagaimana kondisi KKT?

Secara singkat, ini menyatakan bahwa, jika $x$ adalah solusi untuk masalah "kecilkan $f(x)$ tunduk pada $g(x) \le 0$ ", kemudian $x$ juga merupakan solusi untuk masalah tersebut $\nabla f(x) = \lambda \nabla g(x)$ untuk beberapa skalar $\lambda$ . Tapi ini sama dengan mengatakan $\nabla f(x) - \lambda \nabla g(x) = 0$ , yang artinya $x$ meminimalkan masalah optimisasi yang tidak dibatasi "minimal $f(x) - \lambda g(x)$ ".

Intuisinya adalah:

$g(x) < 0$ . Pada kasus ini, $x$ adalah "solusi interior" sehingga gradien $f$ harus nol pada saat itu. (Jika bukan nol, kita bisa bergerak sedikit ke arah itu dari $x$ , sambil mempertahankan $g(x) < 0$ , dan memiliki nilai lebih tinggi untuk $f(x)$ . Lalu kita atur $\lambda = 0$ dan kita sudah selesai.
Atau, $g(x) = 0$ . Pada kasus ini, $x$ ada di tepi ruang solusi yang memungkinkan. Secara lokal, tepi ini terlihat seperti hyperplane orthogonal ke gradien $\nabla g(x)$ , karena cara Anda mempertahankan $g(x) = 0$ kendala adalah untuk tidak bergerak ke atas atau ke bawah gradien sama sekali. Tetapi itu berarti bahwa satu-satunya arah gradien $\nabla f$ mungkin bisa menunjuk adalah arah yang sama persis seperti $\nabla g$ --Jika memiliki komponen yang ortogonal $\nabla g$ , kita bisa bergerak $x$ sedikit ke arah itu, tetap di hyperplane ortogonal $g(x) = 0$ , dan meningkat $f(x)$ .

Bagaimana kondisi KKT menjelaskan hubungan antara minimisasi terbatas dan regularisasi

Jika $g(x) = |x| - c$ untuk beberapa norma dan beberapa konstan $c$ , lalu kendala $g(x) \le 0$ maksudnya $x$ terletak di bidang jari-jari $c$ di bawah norma itu. Dan dalam formulasi yang tidak dibatasi, kurangi $\lambda g(x)$ dari fungsi yang ingin Anda maksimalkan inilah yang akhirnya menerapkan hukuman regularisasi: Anda benar-benar mengurangi $\lambda |x| + \lambda c$ (dan konstanta $\lambda c$ tidak masalah untuk optimasi).

Orang sering mengambil keuntungan dari "dualitas" ini antara optimasi yang tidak dibatasi dan dibatasi. Untuk contoh yang bisa saya temukan dengan cepat dengan Googling lihat On the LASSO dan dualnya .

Mengapa proyeksi penting di sini?

OK, jadi mengapa seseorang menulis makalah tentang proyeksi cepat?

Pada dasarnya, satu cara Anda dapat melakukan optimasi terbatas - "maksimalkan $f(x)$ tunduk pada $x \in X$ "- adalah untuk melakukan hal berikut:

Ambil algoritma iteratif apa pun untuk maksimisasi tanpa batasan $f(x)$
Mulailah dengan menebak $x_0$
Ambil satu langkah dari algoritma: $x_0^\prime \leftarrow step(x_0)$
Kemudian proyeksikan kembali ke set $X$ : $x_1 \leftarrow P_X(x_0^\prime)$ .
Dan ulangi sampai konvergensi.

Sebagai contoh, ini adalah bagaimana proyeksi gradient descent diturunkan dari gradient descent biasa. Tentu saja, mengoptimalkan fungsi proyeksi Anda $P_X$ sangat penting di sini.

Menyatukan semuanya

Jadi, anggaplah Anda ingin menyelesaikan LASSO:

\arg min_{β} (y - β^{'} X)^{2} + λ | | β | |_{1}

$\arg\min_\beta (\mathbf{y} - \beta^\prime \mathbf{X})^2 + \lambda ||\beta||_1$

Itu versi yang tidak dibatasi. Dengan kondisi KKT, menambahkan istilah regularisasi setara dengan membatasi solusi untuk berbohong $||\beta||_1 \le c$ untuk beberapa konstan $c$ . Tapi itu baru saja $\ell_1$ -Bola dengan jari-jari $c$ !

Jadi Anda dapat membayangkan menyelesaikan ini dengan proyeksi (sub) gradient descent. * Jika Anda melakukannya, Anda $P_X$ Fungsi akan menjadi proyeksi ke bola unit, dan Anda ingin membuatnya cepat.

* Saya tidak berpikir orang benar-benar melakukan ini, karena ada cara yang lebih efisien. Tetapi mereka mungkin menggunakan proyeksi juga. EDIT: seperti yang ditunjukkan @Dougal, varian yang lebih canggih dari keturunan yang diproyeksikan cukup bagus untuk menulis makalah tentang tahun 2008.

— Ben Kuhn
sumber

Algoritma ISTA / FISTA pada dasarnya (dipercepat) memproyeksikan penurunan subgradien, yang mungkin bukan algoritma LASSO yang paling disukai, tetapi itu cukup bagus (dan saya pikir sangat canggih sekitar 2008 ketika makalah itu diterbitkan).

— Dougal

@Dougal: terima kasih untuk referensi! Saya sudah mengeditnya.

— Ben Kuhn