Parameter regularisasi LASSO dari algoritma LARS

Dalam makalah seminal mereka 'Least Angle Regression' , Efron dkk menjelaskan modifikasi sederhana dari algoritma LARS yang memungkinkan untuk menghitung jalur regularisasi LASSO penuh.

Saya telah mengimplementasikan varian ini dengan sukses dan biasanya memplot jalur output baik terhadap jumlah langkah (iterasi berurutan dari algoritma LARS) atau -norm dari koefisien regresi ( ). $l_1$ $\Vert \beta \Vert_1$

Namun, sepertinya sebagian besar paket yang tersedia di luar sana menyediakan jalur regularisasi dalam hal koefisien hukuman LASSO $\lambda$ (misalnya LARS dalam R, di mana Anda dapat bermain dengan argumen 'mode' untuk beralih di antara representasi yang berbeda).

Pertanyaan saya adalah: apa mekanisme yang digunakan untuk beralih dari satu representasi ke yang lain (s). Saya telah melihat berbagai pertanyaan terkait dengan itu (atau lebih khusus masalah pemetaan kendala ketimpangan $\Vert \beta \Vert_1 \leq t$ ke istilah hukuman yang sesuai $\lambda \Vert \beta \Vert_1$ ), tetapi tidak menemukan jawaban yang memuaskan.

[Sunting]

Saya telah melihat ke dalam beberapa kode MATLAB yang melakukan transformasi yang diperlukan dan, untuk setiap langkah LARS $k$ , ini adalah bagaimana $\lambda$ tampaknya dikomputasi:

λ (k) = max (2 | X^{T} y |), for k = 1

$\lambda(k) = \max( 2 \vert X^T y \vert ),\ \ \ \text{for } k=1$

λ (k) = median (2 | X_{A_{k}}^{T} r_{A_{k}} |), \forall k > 1

$\lambda(k) = \text{median}( 2 \vert X_{\mathcal{A}_k}^T r_{\mathcal{A}_k} \vert ),\ \ \ \forall k > 1$

di mana $X$ (ukuran $n \times p$ ) dan $y$ (ukuran $n \times 1$ ) menunjukkan input / respons terstandarisasi, $\mathcal{A}_k$ mewakili set prediktor aktif pada langkah $k$ dan $r$ menunjukkan sisa regresi saat ini pada langkah $k$ .

Saya tidak bisa memahami logika di balik perhitungan itu. Bisakah seseorang membantu?

— Jumlah
sumber

Saya telah menemukan cara untuk melakukan konversi yang diperlukan.

Asumsikan bahwa input distandarisasi (rata-rata nol, varian unit) dan respons terpusat. $X$ $y$

Kita tahu bahwa algoritma LARS yang dimodifikasi menyediakan jalur regularisasi penuh LASSO, lih. makalah asli oleh Efron et al .

Ini berarti bahwa, pada setiap iterasi , algoritma sebelumnya menemukan pasangan optimal meminimalkan fungsi kerugian yang diatur: $k$ $(\beta^*, \lambda^*)$

\begin{aligned} (β^{*}, λ^{*}) & = {argmin}_{(β, λ)} L (β, λ) \\ L (β, λ) & = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ = \sum_{i = 1}^{N} {(y_{i} - \sum_{j = 1}^{p} β_{j} X_{i j})}^{2} + λ \sum_{j = 1}^{p} | β_{j} | \end{aligned}

$\begin{align} (\beta^*, \lambda^*) &= \text{argmin}_{(\beta,\lambda)} L(\beta,\lambda) \\ L(\beta,\lambda) &= \Vert y-X\beta \Vert_2^2 + \lambda \Vert \beta \Vert_1 \\ &= \sum_{i=1}^N \left(y_i - \sum_{j=1}^p \beta_j X_{ij}\right)^2 + \lambda \sum_{j=1}^p \vert \beta_j \vert \end{align}$

Untuk semua komponen aktif di set aktif pada akhir langkah , menerapkan kondisi stasioneritas KKT memberi $a=\{1,...,q\}$ $\mathcal{A}_k$ $k$

\begin{aligned} 0 & = \frac{\partial L}{\partial β_{a}} (β^{*}, λ^{*}) \\ = - 2 \sum_{i = 1}^{N} X_{i a} (y_{i} - \sum_{j = 1}^{q} β_{j}^{*} X_{i j}) + λ^{*} sign (β_{a}^{*}) \end{aligned}

$\begin{align} 0 &= \frac{\partial L}{\partial \beta_a}(\beta^*,\lambda^*) \\ &= -2 \sum_{i=1}^N X_{ia} \left(y_i - \sum_{j=1}^q \beta_j^* X_{ij}\right) + \lambda^*\ \text{sign}(\beta_a^*) \end{align}$

Dengan kata lain atau dalam notasi matriks (mencatat bahwa membagi / mengalikan dengan adalah sama) persamaan berikut ini terpenuhi untuk setiap komponen aktif :

λ^{*} = 2 \frac{\sum_{i = 1}^{N} X_{i a} (y_{i} - \sum_{j = 1}^{q} β_{j}^{*} X_{i j})}{sign (β_{a}^{*})}

$\lambda^* = 2 \frac{\sum_{i=1}^N X_{ia} \left(y_i - \sum_{j=1}^q \beta_j^* X_{ij}\right)}{\text{sign}(\beta_a^*)}$

sign (x)

$\text {sign}(x)$ $a$

λ^{*} = 2 sign (β_{a}^{*}) X_{a}^{T} r

$\lambda^* = 2 \ \text{sign}(\beta_a^*) X_a^T r$

Dalam makalah asli, penulis menyebutkan bahwa untuk setiap solusi untuk masalah LASSO, tanda bobot regresi aktif ( ) harus identik dengan tanda korelasi prediktor aktif yang sesuai dengan sisa regresi saat ini ( ), yang hanya logika karena harus positif. Jadi kita juga bisa menulis: $\beta_a^*$ $X_a^T r$ $\lambda^*$

λ^{*} = 2 | X_{a}^{T} r |

$\lambda^* = 2 \vert X_a^T r \vert$

Selain itu, kita melihat bahwa pada langkah terakhir (kecocokan OLS, ), kita mendapatkan karena lemma ortogonal. Penggunaan median dalam implementasi MATLAB yang saya temukan IMHO sepertinya merupakan upaya untuk 'rata-rata' kesalahan numerik atas semua komponen aktif: $k$ $\beta^* = (X^TX)^{-1}X^T y$ $\lambda^* = 0$

$λ^{*} = median (2 | X_{A_{k}}^{T} r_{A_{k}} |), \forall k > 1$ $\lambda^* = \text{median}( 2 \vert X_{\mathcal{A}_k}^T r_{\mathcal{A}_k} \vert ),\ \ \ \forall k > 1$

Untuk menghitung nilai ketika tidak ada komponen aktif (langkah ), seseorang dapat menggunakan trik yang sama seperti di atas tetapi dalam batas sangat kecil di mana semua bobot regresi adalah nol dan hanya tanda komponen pertama yang menjadi aktif (pada langkah ) penting. Ini menghasilkan: $\lambda$ $k=1$ $b$ $k=2$

λ^{*} = 2 sign (β_{b}^{*}) X_{b}^{T} y

$\lambda^* = 2 \ \text{sign}(\beta_b^*) X_b^T y$ yang secara ketat setara dengan

$λ^{*} = max (2 | X^{T} y |), for k = 1$ $\lambda^* = \max(2 \vert X^T y \vert), \text { for } k=1$

karena (i) komentar yang sama seperti sebelumnya tentang tanda bobot regresi; (ii) algoritma LARS menentukan komponen berikutnya untuk memasuki set aktif sebagai komponen yang paling berkorelasi dengan residu saat ini , yang pada langkah hanyalah . $b$ $k=1$ $y$

— Jumlah
sumber

Ini adalah sesuatu yang disebutkan dalam setiap karya LASSO namun tidak ada yang peduli untuk menjelaskannya (saya tidak tahu apakah itu sangat mendasar atau apa, tapi saya butuh banyak waktu untuk mengetahuinya). Saya hanya ingin menekankan bahwa, meskipun "setara", Anda hanya dapat beralih dari satu formulasi ke formulasi lainnya (dibatasi menjadi tidak dibatasi dan sebaliknya) setelah Anda menyelesaikan masalah optimisasi dan Anda memiliki bobot optimal.

— skd

Saya merasakan hal yang sama! Sejauh menyangkut komentar Anda, ya memang. Di sini, ini tercermin dalam sisa , yang hanya dapat dihitung begitu bobot regresi optimal telah diperoleh pada akhir langkah .

r_{A_{k}}

$r_{\mathcal{A}_k}$

β_{k}

$\beta_k$

k

$k$

— Quantuple