Norma punggungan & LASSO

12

Posting ini mengikuti yang ini: Mengapa estimasi ridge menjadi lebih baik daripada OLS dengan menambahkan konstanta pada diagonal?

Ini pertanyaan saya:

Sejauh yang saya tahu, regularisasi ridge menggunakan -norm (jarak euclidean). Tetapi mengapa kita menggunakan kuadrat dari norma ini? (aplikasi langsung akan menghasilkan dengan akar kuadrat dari jumlah beta kuadrat). $\ell_2$ $\ell_2$

Sebagai perbandingan, kami tidak melakukan ini untuk LASSO, yang menggunakan -norm untuk mengatur. Tapi di sini itu norma "nyata" (hanya jumlah kuadrat dari nilai absolut beta, dan bukan kuadrat dari jumlah ini). $\ell_1$ $\ell_1$

Dapatkah seseorang membantu saya mengklarifikasi?

lasso regularization ridge-regression

— PLOTZ
sumber

2

Istilah penalti dalam regresi ridge adalah norma L2 kuadrat. Lihat slide-slide ini yang ditulis oleh Tibshirani sebagai contoh (slide 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Lihat juga di sini en.wikipedia.org/wiki/Tikhonov_regularization

— boscovich

Poin klarifikasi kecil, ini adalah slide dari Ryan Tibshirani bukan Rob.

— Ellis Valentiner

ok terima kasih banyak atas klarifikasi. Tapi saya tidak mengerti mengapa kuadrat untuk L2 dan tidak kuadrat untuk L1. Bukankah kita memiliki formula umum untuk segala jenis regularisasi?

— PLOTZ

@ user12202013: terima kasih telah menunjukkannya. Saya tidak memperhatikan itu.

— boscovich

9

Ridge dan laso adalah dua cara regularisasi dan regresi. Regresi Lasso memberikan batasan pada jumlah koefisien absolut:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

Regresi Ridge memberlakukan batasan jumlah perbedaan kuadrat:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Anda menyarankan untuk memperkenalkan bahkan norma lain, panjang koefisien euclidean:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

Perbedaan antara regresi Ridge dan panjang euclidean adalah kuadrat. Ini memang mengubah interpretasi regularisasi. Sementara kedua ridge dan panjang euclidean diatur ke arah nol, regresi ridge juga berbeda dalam jumlah regularisasi. Koefisien yang lebih jauh dari nol menarik lebih kuat ke nol. Ini membuatnya lebih stabil di sekitar nol karena perubahan regularisasi secara bertahap di sekitar nol. Ini bukan kasus untuk panjang euclidean, atau sebagai soal fakta, untuk regresi laso.

— Pieter
sumber

7

Ada banyak pendekatan hukuman yang memiliki semua jenis fungsi penalti yang berbeda sekarang (ridge, laso, MCP, SCAD). Pertanyaan mengapa salah satu bentuk tertentu pada dasarnya adalah "apa kelebihan / kerugian yang diberikan hukuman seperti itu?".

Properti yang menarik mungkin:

1) penaksir yang hampir tidak bias (perhatikan semua penaksir yang dihukum akan bias)

2) Sparsity (perhatikan regresi ridge tidak menghasilkan hasil yang jarang, yaitu tidak mengecilkan koefisien sampai nol)

3) Kontinuitas (untuk menghindari ketidakstabilan dalam prediksi model)

Ini hanya beberapa properti yang mungkin tertarik pada fungsi penalti.

Jauh lebih mudah untuk bekerja dengan penjumlahan dalam derivasi dan kerja teoretis: misalnya dan . Bayangkan jika kita punya $||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ atau. Mengambil turunan (yang diperlukan untuk menunjukkan hasil teoretis seperti konsistensi, normalitas asimptotik, dll.) Akan menyebalkan dengan hukuman seperti itu. $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

— bdeonovic
sumber

Ok terima kasih. Tapi mengapa kuadrat untuk L2 dan tidak kuadrat untuk L1? Bukankah kita memiliki formula umum untuk segala jenis regularisasi? Ini membingungkan saya ...

— PLOTZ

@PLOTZ Saya menambahkan sedikit jawaban saya.

— bdeonovic

Terima kasih banyak, Benyamin! Pasti sudah lebih jelas sekarang! Saya tidak mendapatkan tujuan teoretis ini sebelum jawaban Anda. Terima kasih banyak atas jawaban Anda.

— PLOTZ

@Benjamin: pada poin # 1 maksud Anda sebenarnya "( tidak semua penaksir yang dihukum akan tidak memihak)"? Regresi punggungan –hanya menyebutkan satu– adalah bias.

— boscovich

ups ya terima kasih untuk menangkap itu! Saya pikir pada kenyataannya semua penaksir yang dihukum akan menjadi bias.

— bdeonovic

5

$\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ $p > 0$

Regresi Ridge kemudian menggunakan , dan Lasso tetapi orang dapat menggunakan nilai lain dari . $p=2$ $p=1$ $p$

Misalnya Anda memiliki solusi jarang untuk semua nilai , dan semakin kecil nilai semakin jarang solusi. $p \leq 1$ $p$

Untuk nilai sasaran Anda tidak lebih mulus sehingga pengoptimalan menjadi lebih sulit; untuk tujuannya adalah non-cembung dan optimasi jadi lebih sulit ... $p \leq 1$ $p<1$

— Tonio Bonnef
sumber

2

Saya percaya ada jawaban yang lebih sederhana di sini, meskipun pertanyaan "mengapa" selalu sulit dijawab ketika suatu teknik dikembangkan. Kuadrat -norm digunakan sehingga istilah regularisasi mudah dibedakan. Regresi Ridge meminimalkan: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Yang juga dapat ditulis:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Ini sekarang dapat dengan mudah dibedakan wrt untuk mendapatkan solusi bentuk tertutup: $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

dari mana semua agak inferensi dapat diturunkan.

— Tim Atreides
sumber

1

Pertimbangkan satu perbedaan penting lainnya antara menggunakan kuadrat dari norma (yaitu regresi ridge) dan norma tidak dimodifikasi : turunan dari norma dari , , pada diberikan oleh dan karenanya tidak dapat dibedakan pada vektor nol. Yaitu, meskipun norma tidak melakukan pemilihan variabel individual seperti laso, secara teori ia dapat menghasilkan sebagai solusi untuk kemungkinan hukuman maksimum. Dengan mengkuadratkan $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ Dalam norma penalti, penalti tipe ridge dapat dibedakan di mana-mana dan tidak pernah dapat menghasilkan solusi seperti itu.

Perilaku ini persis (menurut pemahaman saya) mengapa kelompok laso (Yuan dan Lin) dan laso kelompok jarang (Simon, et al.), Dll, menggunakan norma (pada himpunan bagian koefisien yang ditentukan sebelumnya) alih-alih kuadrat dari norma . $\ell_2$ $\ell_2$

— psboonstra
sumber