Bagaimana Cara Menerapkan Metode Iteratively Reweighted Least Squares (IRLS) ke Model LASSO?

12

Saya telah memprogram regresi logistik menggunakan algoritma IRLS . Saya ingin menerapkan hukuman LASSO untuk memilih fitur yang tepat secara otomatis. Pada setiap iterasi, berikut ini dipecahkan:

(X^{T} W X) δ \hat{β} = X^{T} (y - p)

$\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)}$

Biarkan menjadi bilangan real non-negatif. Saya tidak menghukum intersep seperti yang disarankan dalam The Elements of. Pembelajaran Statistik . Ditto untuk koefisien yang sudah nol. Kalau tidak, saya mengurangi istilah dari sisi kanan: $\lambda$

X^{T} (y - p) - λ \times s i g n (\hat{β})

$\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)}$

Namun, saya tidak yakin tentang modifikasi algoritma IRLS. Apakah ini cara yang benar untuk dilakukan?

Sunting: Meskipun saya tidak yakin tentang hal itu, berikut adalah salah satu solusi yang akhirnya saya temukan. Yang menarik adalah solusi ini sesuai dengan apa yang sekarang saya mengerti tentang LASSO. Memang ada dua langkah di setiap iterasi alih-alih hanya satu:

langkah pertama adalah sama seperti sebelumnya: kita membuat iterasi dari algoritma (seolah-olah $\lambda=0$ dalam rumus untuk gradien di atas),
langkah kedua adalah yang baru: kami menerapkan soft-thresholding untuk setiap komponen (kecuali untuk komponen $\beta_0$ , yang sesuai dengan intersep) dari vektor $\beta$ diperoleh pada langkah pertama. Ini disebut Iterative Soft-Thresholding Algorithm .

\forall i \geq 1, β_{i} \leftarrow s i g n (β_{i}) \times max (0, | β_{i} | - λ)

$\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)$

— Wok
sumber

Masih tidak bisa mendapatkan konvergensi yang lebih baik dengan mengadaptasi IRLS. : '(

— Wok

12

Masalah ini biasanya diselesaikan dengan fit oleh keturunan koordinat ( lihat di sini ). Metode ini lebih aman lebih efisien secara numerik, algoritmik lebih mudah diimplementasikan dan berlaku untuk berbagai model yang lebih umum (juga termasuk regresi Cox). Sebuah implementasi R tersedia dalam R paket glmnet . Kode adalah open source (sebagian di dan di C, sebagian di R), sehingga Anda dapat menggunakannya sebagai cetak biru.

— pengguna603
sumber

@wok Dari catatan, paket scikit.learn juga menawarkan implementasi efisien dalam Python untuk hal semacam ini.

— chl

Algoritma penurunan koordinat sangat menarik. Terima kasih. Masih memikirkannya.

— Wok

5

Fungsi kerugian LASSO memiliki diskontinuitas pada nol di sepanjang setiap sumbu, sehingga IRLS akan mengalami masalah dengannya. Saya telah menemukan pendekatan tipe optimasi sekuensial minimal (SMO) yang sangat efektif, lihat misalnya

http://bioinformatics.oxfordjournals.org/content/19/17/2246

versi dengan perangkat lunak MATLAB adalah

http://bioinformatics.oxfordjournals.org/content/22/19/2348

perangkat lunak tersedia di sini:

http://theoval.cmp.uea.ac.uk/~gcc/cbl/blogreg/

Ide dasarnya adalah untuk mengoptimalkan koefisien satu per satu, dan menguji untuk melihat apakah Anda melewati diskontinuitas satu koefisien pada suatu waktu, yang semudah Anda melakukan optimasi skalar. Ini mungkin terdengar lambat, tetapi sebenarnya cukup efisien (walaupun saya berharap algoritma yang lebih baik telah dikembangkan sejak - mungkin oleh Keerthi atau Chih-Jen Lin yang keduanya ahli dalam hal semacam itu).

— Dikran Marsupial
sumber

Terima kasih. Saya membaca ini dan memikirkannya. Namun, ini akan menjadi modifikasi besar dari algoritma saat ini.

— Wok

4

Anda dapat memeriksa makalah ini: Regresi logistik teregulasi L1 yang efisien, yang merupakan algoritma berbasis IRLS untuk LASSO. Mengenai implementasi, tautan ini mungkin bermanfaat bagi Anda (http://ai.stanford.edu/~silee/softwares/irlslars.htm).

0

IRLS untuk masalah LASSO adalah sebagai berikut:

\arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{1} = \arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ x^{T} W x

$\arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda \left\| x \right\|_{1} = \arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda {x}^{T} W {x}$

Di mana adalah matriks diagonal - . Ini berasal dari . $W$ ${W}_{i, i} = \frac{1}{ \left| {x}_{i} \right| }$
$\left\| x \right\|_{1} = \sum_{i} \left| {x}_{i} \right| = \sum_{i} \frac{ {x}_{i}^{2} } { \left| {x}_{i} \right| }$

Sekarang, yang di atas hanyalah Regulasi Tikhonov .
Namun, karena bergantung pada seseorang harus menyelesaikannya secara iteratif (Juga ini membatalkan 2 faktor dalam Regulasi Tikhonov, Sebagai turunan dari berkaitan dengan sambil memegang sebagai konstanta adalah yang sama dengan ): $W$ $x$ ${x}^{T} W x$ $x$ $x$ $\operatorname{diag} \left( \operatorname{sign} \left( x \right) \right)$ $W x$

x^{k + 1} = {(A^{T} A + λ W^{k})}^{- 1} A^{T} b

${x}^{k + 1} = \left( {A}^{T} A + \lambda {W}^{k} \right)^{-1} {A}^{T} b$

Di mana . ${W}_{i, i}^{K} = \frac{1}{ \left| {x}^{k}_{i} \right| }$

Inisialisasi dapat dengan . $W = I$

Perhatikan ini tidak bekerja dengan baik untuk nilai dan Anda lebih baik menggunakan ADMM atau Koordinasikan Keturunan. $\lambda$

— Royi
sumber