Hukuman jembatan vs. Regulerisasi Jaring Elastis

Beberapa fungsi dan perkiraan penalti dipelajari dengan baik, seperti LASSO ( ) dan Ridge ( ) dan bagaimana ini dibandingkan dalam regresi. $L_1$ $L_2$

Saya telah membaca tentang penalti Bridge, yang merupakan $\sum \|\beta_{j}\|^{\gamma}$ penalti umum Bandingkan dengan LASSO, yang memiliki $\gamma = 1$ , dan Ridge, dengan $\gamma = 2$ , menjadikannya case khusus.

Wenjiang [ 1 ] membandingkan penalti Bridge ketika $\gamma \geq 1$ dengan LASSO, tetapi saya tidak dapat menemukan perbandingan dengan regularisasi Net Jaring, kombinasi antara LASSO dan penalti Ridge, diberikan sebagai $\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}$ .

Ini adalah pertanyaan yang menarik karena Jaring Elastis dan Jembatan spesifik ini memiliki bentuk kendala serupa. Bandingkan lingkaran unit ini menggunakan metrik yang berbeda ( $p$ adalah kekuatan jarak Minkowski ):

$p = 1$ sesuai dengan LASSO, $p = 2$ ke Ridge, dan $p = 1.4$ untuk satu Bridge yang mungkin. Elastic Net dihasilkan dengan bobot yang sama pada penalti $L_1$ dan $L_2$ . Angka-angka ini berguna untuk mengidentifikasi sparsity, misalnya (yang Bridge jelas kekurangan sedangkan Elastic Net menyimpannya dari LASSO).

Jadi bagaimana dengan Bridge dengan $1<\gamma <2$ dibandingkan dengan Elastic Net mengenai regularisasi (selain sparsity)? Saya memiliki minat khusus dalam pembelajaran yang diawasi, jadi mungkin diskusi tentang pemilihan fitur / pembobotan adalah relevan. Argumentasi geometris diterima juga.

Mungkin, yang lebih penting, apakah Jaring Elastis selalu lebih diinginkan dalam kasus ini?

_{[1] Fu, WJ (1998). Regresi yang dihukum: jembatan versus laso. Jurnal statistik komputasi dan grafis, 7 (3), 397-416.}

EDIT: Ada pertanyaan ini Bagaimana cara menentukan ukuran penalti yang akan digunakan? pedoman umum atau aturan praktis apa pun dari buku teks yang secara dangkal menyebutkan LASSO, Ridge, Bridge dan Elastic Net, tetapi tidak ada upaya untuk membandingkannya.

— Pembakar
sumber

Hanya terkait secara tangensial, tetapi jika hukuman norma adalah perkiraan MAP dari regresi Bayesian dengan prior Laplace independen pada koefisien, dan adalah sama untuk prior Gaussian, saya bertanya-tanya apakah penalti Bridge setara dengan Subbotin sebelumnya ... stats.stackexchange.com/questions/201038/...

L_{1}

$L_1$

L_{2}

$L_2$

— Sycorax mengatakan

@ RichardHardy Tidak perlu menulis laso di semua ibukota, lihat komentar saya di sini .

— Amoeba berkata Reinstate Monica

Ingatlah bahwa regresi Bridge memungkinkan untuk yang memberikan regresi non-cembung. Ini bagus khususnya ketika mencoba memilih kelompok kovariat, terutama dari data yang jarang. Atau secara umum Anda bisa kelompok kovariat, yang Anda akan pra-didefinisikan beraturan sehingga tidak ada kelompok tertentu besar, dan kemudian regularise tunggal koefisien kelompok untuk mencapai sparsity. Yaitu jika Anda menulis , di mana maka Anda dapat melakukan .

γ < 1

$\gamma<1$

L^{2}

$L^2$

L^{1}

$L^1$

β = (a_{1}, \dots, a_{k})

$\beta=(a_1,\cdots,a_k)$

a_{i} = (β_{i_{1}}, β_{i_{2},}, \dots, β_{i_{r}})

$a_i=(\beta_{i_1},\beta_{i_2,},\cdots,\beta_{i_r})$

λ_{1} ‖ β ‖^{γ_{i}} + λ_{2} \sum_{i} ‖ a_{i} ‖^{ν_{i}}

$\lambda_1 \|\beta\|^{\gamma_i}+\lambda_2\sum_i \|a_i\|^{\nu_i}$

— Alex R.

@AlexR. Saya harus benar-benar memperjelas bahwa saya merujuk ke . Saya tidak tahu juga disebut Bridge.

γ \geq 1

$\gamma \geq 1$

γ < 1

$\gamma < 1$

— Firebug

@amoeba, oke, baik. Saya biasanya tidak mengedit jika penggunaan huruf kapital konsisten di seluruh pos, tapi kali ini ada "LASSO" dan "laso", jadi saya hanya memilih "LASSO" yang merupakan bentuk pertama di pos. Saya selalu berpikir tentang akronim, itu sebabnya saya menggunakan semua huruf besar; tetapi seperti yang Anda katakan, "laso" sederhana mungkin lebih baik.

— Richard Hardy

Bagaimana jembatan regresi dan jaring elastis berbeda adalah pertanyaan yang menarik, mengingat hukuman yang tampak sama. Inilah satu pendekatan yang mungkin. Misalkan kita menyelesaikan masalah regresi jembatan. Kami kemudian dapat bertanya bagaimana solusi jaring elastis akan berbeda. Melihat gradien dari dua fungsi kerugian dapat memberi tahu kita sesuatu tentang ini.

Regresi jembatan

Say adalah matriks yang berisi nilai-nilai variabel independen ( dimensi poin x ), adalah vektor yang berisi nilai-nilai variabel dependen, dan adalah vektor bobot. $X$ $n$ $d$ $y$ $w$

Fungsi kerugian menghukum norma dari bobot, dengan magnitude : $\ell_q$ $\lambda_b$

L_{b} (w) = ‖ y - X w ‖_{2}^{2} + λ_{b} ‖ w ‖_{q}^{q}

$L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q$

Gradien dari fungsi kerugian adalah:

\nabla_{w} L_{b} (w) = - 2 X^{T} (y - X w) + λ_{b} q | w |^{\circ (q - 1)} sgn (w)

$\nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w)$

$v^{\circ c}$ menunjukkan kekuatan Hadamard (yaitu elemen-bijaksana), yang memberikan vektor dengan elemen ke- adalah . adalah fungsi tanda (diterapkan pada setiap elemen ). Gradien mungkin tidak terdefinisi pada nol untuk beberapa nilai . $i$ $v_i^c$ $\text{sgn}(w)$ $w$ $q$

Jaring elastis

Fungsi kerugian adalah:

L_{e} (w) = ‖ y - X w ‖_{2}^{2} + λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2}

$L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2$

Ini menghukum norma bobot dengan magnitude dan norma dengan magnitude . Kertas jaring elastis panggilan meminimalkan fungsi kerugian ini 'jaring elastis naif' karena dua kali lipat bobot. Mereka menggambarkan prosedur yang ditingkatkan di mana bobot kemudian diubah untuk mengkompensasi penyusutan ganda, tapi saya hanya akan menganalisis versi naif. Itu peringatan yang harus diingat. $\ell_1$ $\lambda_1$ $\ell_2$ $\lambda_2$

Gradien dari fungsi kerugian adalah:

\nabla_{w} L_{e} (w) = - 2 X^{T} (y - X w) + λ_{1} sgn (w) + 2 λ_{2} w

$\nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w$

Gradien tidak terdefinisi pada nol ketika karena nilai absolut dalam penalti tidak dapat dibedakan di sana. $\lambda_1 > 0$ $\ell_1$

Pendekatan

Katakanlah kita memilih bobot yang memecahkan masalah regresi jembatan. Ini berarti gradien regresi jembatan adalah nol pada titik ini: $w^*$

\nabla_{w} L_{b} (w^{*}) = - 2 X^{T} (y - X w^{*}) + λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*}) = \vec{0}

$\nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0}$

Karena itu:

2 X^{T} (y - X w^{*}) = λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Kita dapat mensubstitusi ini ke dalam gradien jaring elastis, untuk mendapatkan ekspresi dari gradien jaring elastis di . Untungnya, itu tidak lagi tergantung langsung pada data: $w^*$

\nabla_{w} L_{e} (w^{*}) = λ_{1} sgn (w^{*}) + 2 λ_{2} w^{*} - λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$\nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Melihat gradien jaring elastis di memberitahu kita: Mengingat bahwa regresi jembatan telah menyatu dengan bobot , bagaimana jaring elastis ingin mengubah bobot ini? $w^*$ $w^*$

Ini memberi kita arah lokal dan besarnya perubahan yang diinginkan, karena titik-titik gradien dalam arah pendakian paling curam dan fungsi kerugian akan berkurang ketika kita bergerak ke arah yang berlawanan dengan gradien. Gradien mungkin tidak mengarah langsung ke solusi jaring elastis. Tetapi, karena fungsi rugi bersih elastis adalah cembung, arah / besaran lokal memberikan beberapa informasi tentang bagaimana solusi jaring elastis akan berbeda dari solusi regresi jembatan.

Kasus 1: Cek kesehatan

( ). Regresi jembatan dalam kasus ini setara dengan kuadrat terkecil biasa (OLS), karena besarnya penalti adalah nol. Jaring elastis adalah regresi ridge yang setara, karena hanya norma yang dihukum. Plot berikut menunjukkan solusi regresi jembatan yang berbeda dan bagaimana gradien jaring elastis berperilaku untuk masing-masing. $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ $\ell_2$

Plot kiri: Gradien jaring elastis vs bobot regresi jembatan di sepanjang setiap dimensi

Sumbu x mewakili satu komponen dari serangkaian bobot dipilih oleh regresi jembatan. Sumbu y mewakili komponen yang sesuai dari gradien jaring elastis, dievaluasi pada . Perhatikan bahwa bobotnya multidimensi, tetapi kami hanya melihat bobot / gradien sepanjang dimensi tunggal. $w^*$ $w^*$

Plot kanan: Perubahan jaring elastis untuk menjembatani bobot regresi (2d)

Setiap titik mewakili satu set bobot 2d dipilih oleh regresi jembatan. Untuk setiap pilihan , sebuah vektor diplot menunjuk ke arah yang berlawanan dengan gradien jaring elastis, dengan besarnya sebanding dengan gradien. Yaitu, vektor yang diplot menunjukkan bagaimana jaring elastis ingin mengubah solusi regresi jembatan. $w^*$ $w^*$

Plot ini menunjukkan bahwa, dibandingkan dengan regresi jembatan (OLS dalam kasus ini), jaring elastis (regresi ridge dalam kasus ini) ingin mengecilkan bobot ke nol. Jumlah penyusutan yang diinginkan meningkat dengan besarnya bobot. Jika bobotnya nol, solusinya sama. Interpretasinya adalah kita ingin bergerak ke arah yang berlawanan dengan gradien untuk mengurangi fungsi kerugian. Misalnya, katakanlah regresi jembatan konvergen ke nilai positif untuk salah satu bobot. Gradien jaring elastis positif pada titik ini, sehingga jaring elastis ingin menurunkan berat ini. Jika menggunakan gradient descent, kami akan mengambil langkah-langkah proporsional dalam ukuran ke gradien (tentu saja, kami tidak bisa secara teknis menggunakan gradient descent untuk menyelesaikan jaring elastis karena non-diferensiabilitas pada nol,

Kasus 2: Jembatan pencocokan & jaring elastis

( ). Saya memilih parameter penalti jembatan untuk mencocokkan contoh dari pertanyaan. Saya memilih parameter jaring elastis untuk memberikan penalti jaring elastis terbaik. Di sini, sarana yang paling cocok, dengan distribusi bobot tertentu, kami menemukan parameter penalti jaring elastis yang meminimalkan perbedaan kuadrat yang diharapkan antara jembatan dan penalti jaring elastis: $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$

min_{λ_{1}, λ_{2}} E [(λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2} - λ_{b} ‖ w ‖_{q}^{q})^{2}]

$\min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ]$

Di sini, saya mempertimbangkan bobot dengan semua entri yang diambil dari distribusi seragam pada (yaitu di dalam hypercube yang berpusat di titik asal). Parameter jaring elastis pencocokan terbaik adalah serupa untuk 2 hingga 1000 dimensi. Meskipun mereka tampaknya tidak peka terhadap dimensi, parameter yang paling cocok tergantung pada skala distribusi. $[-2, 2]$

Permukaan hukuman

Berikut adalah plot kontur dari total penalti yang dikenakan oleh regresi jembatan ( ) dan jaring elastis yang paling cocok ( ) sebagai fungsi dari bobot (untuk kasus 2d ): $q=1.4, \lambda_b=100$ $\lambda_1 = 0.629, \lambda_2 = 0.355$

Perilaku gradien

Kita bisa melihat yang berikut ini:

Biarkan menjadi bobot regresi jembatan yang dipilih sepanjang dimensi . $w^*_j$ $j$
Jika , jaring elastis ingin mengecilkan bobot ke nol. $|w^*_j|< 0.25$
Jika , regresi jembatan dan solusi jaring elastis adalah sama. Tapi, jaring elastis ingin menjauh jika beratnya sedikit berbeda. $|w^*_j| \approx 0.25$
Jika , jaring elastis ingin menambah bobot. $0.25 < |w^*_j| < 1.31$
Jika , regresi jembatan dan solusi jaring elastis adalah sama. Jaring elastis ingin bergerak menuju titik ini dari bobot terdekat. $|w^*_j| \approx 1.31$
Jika , jaring elastis ingin mengecilkan berat. $|w^*_j| > 1.31$

Hasilnya serupa secara kualitatif jika kita mengubah nilai dan / atau dan menemukan yang terbaik . Titik-titik di mana solusi jembatan dan jaring elastis bertepatan sedikit berubah, tetapi perilaku gradien sebaliknya sama. $q$ $\lambda_b$ $\lambda_1, \lambda_2$

Kasus 3: Jembatan yang tidak cocok & jaring elastis

$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . Dalam rezim ini, regresi jembatan berperilaku mirip dengan regresi ridge. Saya menemukan paling cocok , tetapi kemudian menukarnya sehingga jaring elastis berperilaku lebih seperti laso ( penalti lebih besar dari penalti ). $\lambda_1, \lambda_2$ $\ell_1$ $\ell_2$

Relatif untuk menjembatani regresi, jaring elastis ingin mengecilkan bobot kecil menuju nol dan menambah bobot lebih besar. Ada satu set bobot di setiap kuadran di mana regresi jembatan dan solusi jaring elastis bertepatan, tetapi jaring elastis ingin menjauh dari titik ini jika bobotnya bahkan sedikit berbeda.

$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . Dalam rezim ini, penalti jembatan lebih mirip dengan penalti (meskipun regresi jembatan mungkin tidak menghasilkan solusi jarang dengan , seperti yang disebutkan dalam kertas bersih elastis). Saya menemukan , tetapi kemudian menukarnya sehingga jaring elastis berperilaku lebih seperti regresi ridge ( penalti lebih besar dari penalti ). $\ell_1$ $q > 1$ $\lambda_1, \lambda_2$ $\ell_2$ $\ell_1$

Relatif untuk menjembatani regresi, jaring elastis ingin menumbuhkan bobot kecil dan mengecilkan bobot lebih besar. Ada titik di setiap kuadran di mana solusi jembatan regresi dan jaring elastis bertepatan, dan jaring elastis ingin bergerak menuju bobot ini dari titik-titik tetangga.

— pengguna20160
sumber

(+1) Jawaban yang bagus, terima kasih atas usahanya! Bisakah Anda membahas satu hal terakhir: "Apakah Net Elastis selalu lebih diinginkan?". Tidak perlu panjang lebar;

— Firebug

Regresi jembatan dan jaring elastis setara dengan estimasi MAP dengan berbagai jenis prior pada bobot. Dari perspektif ini, sepertinya pilihan yang lebih baik akan menjadi yang sebelumnya lebih cocok dengan proses pembuatan data, dan bahwa tidak ada metode yang lebih baik dalam semua kasus.

— user20160

+6, jawaban yang sangat bagus. Mengenai komentar Anda di atas: apa yang sebelumnya menghasilkan regresi jembatan? Saya tahu bahwa Gaussian prior berhubungan dengan ridge dan Laplace sebelum laso. Bisakah seseorang menggabungkan prior ini untuk mendapatkan sesuatu yang sesuai dengan jaring elastis?

— Amuba mengatakan Reinstate Monica

@amoeba Pertanyaan itu tidak ditujukan kepada saya, saya tahu, tetapi seperti yang dikatakan GeneralAbrial dalam pertanyaan itu, bridge mungkin berhubungan dengan Subbotin sebelumnya. Jaring elastis, seperti yang diharapkan, berada di antara prior Gaussian dan Laplacian. Lihat Li, Q., & Lin, N. (2010). Jaring elastis Bayesian. Analisis Bayesian, 5 (1), 151-170. dan Zou, H., & Hastie, T. (2005). Pengaturan dan pemilihan variabel melalui jaring elastis. Jurnal Masyarakat Statistik Kerajaan: Seri B (Metodologi Statistik), 67 (2), 301-320. untuk perbandingan singkat antara jaring elastis dan regresi jembatan.

— Firebug

@amoeba terima kasih atas karunia dan perhatian untuk posting ini, juga untuk posting lainnya tentang PCA vs pengurangan dimensi nonlinier. Sangat mengagumkan bahwa Anda menggunakan perwakilan Anda untuk mempromosikan pertanyaan / jawaban orang lain, dan itu membuat saya senang jika posting ini setidaknya memiliki nilai yang kecil bagi orang-orang. Lainnya, terima kasih juga atas kata-kata baiknya.

— user20160