Mengapa penalti Lasso setara dengan eksponensial ganda (Laplace) sebelumnya?


27

Saya telah membaca di sejumlah referensi bahwa estimasi Lasso untuk parameter vektor regresi setara dengan mode posterior di mana distribusi sebelumnya untuk setiap adalah distribusi eksponensial ganda (juga dikenal sebagai distribusi Laplace).B B iBBBi

Saya telah mencoba untuk membuktikan ini, dapatkah seseorang menyempurnakan detailnya?


@ user777 Saya membolak-balik buku itu untuk sementara waktu hari ini. Tidak dapat menemukan yang relevan.
Wintermute

Jawaban:


30

Untuk kesederhanaan, mari kita perhatikan pengamatan tunggal dari variabel sehingga Y | μ , σ 2N ( μ , σ 2 ) ,Y

Y|μ,σ2N(μ,σ2),

μLaplace(λ) dan sebelumnya yang tidak benar .f(σ)1σ>0

Maka densitas gabungan sebanding dengan f ( Y , μ , σ 2 | λ ) 1Y,μ,σ2

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Mengambil log dan membuang istilah yang tidak melibatkan , log f ( Y , μ , σ 2 ) = -μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Dengan demikian, maksimum (1) akan menjadi taksiran MAP dan memang merupakan masalah Lasso setelah kami menyusun kembali λ~=λσ2 .

Ekstensi untuk regresi jelas - ganti dengan dalam kemungkinan Normal, dan tetapkan sebelumnya pada menjadi urutan distribusi independen laplace .X β β ( λ )μXββ(λ)


25

Ini jelas dengan memeriksa kuantitas yang dioptimalkan oleh LASSO.

Ambil prior untuk agar Laplace independen dengan rata-rata nol dan beberapa skala .βiτ

Jadi .p(β|τ)e12τi|βi|

Model untuk data adalah asumsi regresi biasa .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Sekarang minus dua kali log dari posterior adalah dari formulir

k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Biarkan dan kita mendapatkan -posisiλ=σ2/τ2log

k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

Penaksir MAP untuk meminimalkan hal di atas, yang meminimalkanβ

S=(yXβ)T(yXβ)+λi|βi|

Jadi penaksir MAP untuk adalah LASSO.β

(Di sini saya memperlakukan sebagai diperbaiki secara efektif tetapi Anda dapat melakukan hal-hal lain dengannya dan masih membuat LASSO keluar.)σ2

Sunting: Itulah yang saya dapatkan untuk menulis jawaban secara offline; Saya tidak melihat jawaban yang baik sudah diposting oleh Andrew. Punyaku benar-benar tidak melakukan apa pun yang belum dilakukannya. Saya akan meninggalkan milik saya untuk saat ini karena memberikan beberapa detail pengembangan dalam hal .β


1
Tampaknya ada perbedaan dalam jawaban Anda dan jawaban Andrew. Jawaban Anda memiliki bentuk regulator yang benar: , sedangkan Andrew memiliki, di mana dalam regresi linier, kita mendapatkan . λ | μ | μ = X βλβ1λ|μ|μ=Xβ
Alex R.

2
@AlexR Saya pikir Anda salah menafsirkan μ dalam jawaban Andrew. ada berhubungan dengan dalam regresi dengan hanya intersep, bukan ke dalam regresi berganda; argumen yang sama mengikuti untuk kasus yang lebih besar (perhatikan persamaan dengan jawaban saya) tetapi lebih mudah untuk mengikuti dalam kasus sederhana. Jawaban Andrew pada dasarnya benar tetapi tidak menghubungkan semua titik ke pertanyaan awal, menyisakan sedikit bagi pembaca untuk diisi. Saya pikir jawaban kami konsisten (hingga beberapa perbedaan kecil terkait σ yang dapat dipertanggungjawabkan) dan bahwa dia sepenuhnya pantas X ββ0Xβ
dikalahkan
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.