Jika LASSO setara dengan regresi linier dengan Laplace sebelumnya, bagaimana mungkin ada massa pada set dengan komponen nol?

Kita semua akrab dengan gagasan, didokumentasikan dengan baik dalam literatur, bahwa optimasi LASSO (demi kesederhanaan membatasi perhatian di sini untuk kasus regresi linier) setara dengan model linier dengan kesalahan Gaussian di mana parameter diberikan Laplace sebelumnya Kami juga menyadari bahwa semakin tinggi yang mengatur parameter penyetelan, , semakin besar porsi parameter ditetapkan ke nol. Kata ini, saya memiliki pertanyaan pemikiran berikut:

l Hai s s = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

${\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1$

\exp (- λ ‖ β ‖_{1})

$\exp(-\lambda \| \beta \|_1 )$

λ

$\lambda$

Pertimbangkan bahwa dari sudut pandang Bayesian kita dapat menghitung probabilitas posterior bahwa, katakanlah, estimasi parameter bukan nol terletak pada kumpulan interval tertentu dan parameter yang disetel ke nol oleh LASSO sama dengan nol. Apa yang membuat saya bingung adalah, mengingat bahwa Laplace prior adalah kontinu (sebenarnya benar-benar kontinu) lalu bagaimana bisa ada massa pada set apa pun yang merupakan produk interval dan lajang di $\{0\}$ ?

lasso laplace-distribution

— Berikan Izmirlian
sumber

Apa yang membuat Anda berpikir bahwa posterior juga bukan pdf kontinu? Fakta bahwa maksimum posterior terjadi pada titik yang kebetulan memiliki banyak komponen 0 tidak berarti dengan sendirinya bahwa posterior bukanlah pdf kontinu.

— Brian Borchers

Posterior adalah PDF berkelanjutan. Dilihat sebagai estimasi kemungkinan maksimum yang dibatasi, jika kita membayangkan penarikan berulang dari distribusi data yang sama ketika model sebenarnya memiliki nol pada koefisien regresi berganda dan konstanta tuning cukup besar maka CMLE akan selalu memiliki komponen yang sama ditetapkan ke nol dan non- parameter nol akan menyebar ke interval kepercayaan yang sesuai. Dari perspektif bayesian ini setara dengan memiliki probabilitas positif untuk set tersebut. Pertanyaan saya adalah bagaimana bisa demikian untuk distribusi yang berkelanjutan.

— Berikan Izmirlian

Solusi CLME bertepatan dengan estimasi MAP. Tidak ada lagi yang bisa dikatakan.

— Sycorax berkata Reinstate Monica

Solusi CMLE bukan sampel dari posterior.

— Brian Borchers

Tidak ada kontradiksi karena posterior tidak menempatkan massa pada set dimensi yang lebih rendah.

— Xi'an

Seperti semua komentar di atas, interpretasi Bayesian tentang LASSO tidak mengambil nilai yang diharapkan dari distribusi posterior, yang adalah apa yang ingin Anda lakukan jika Anda seorang purist. Jika itu yang terjadi, maka Anda akan benar bahwa ada kemungkinan sangat kecil bahwa posterior akan menjadi nol mengingat data.

Pada kenyataannya, interpretasi Bayesian tentang LASSO mengambil penaksir MAP (Maximum A Posteriori) dari posterior. Kedengarannya seperti Anda terbiasa, tetapi bagi siapa pun yang tidak, ini pada dasarnya adalah Bayesian Maximum Likelihood, di mana Anda menggunakan nilai yang sesuai dengan probabilitas maksimum kejadian (atau mode) sebagai penduga Anda untuk parameter di LASSO. Karena distribusi meningkat secara eksponensial hingga nol dari arah negatif dan jatuh secara eksponensial ke arah positif, kecuali jika data Anda sangat menyarankan beta adalah beberapa nilai signifikan lainnya, nilai maksimum nilai posterior Anda kemungkinan adalah 0.

Singkat cerita, intuisi Anda tampaknya didasarkan pada rata-rata posterior, tetapi interpretasi Bayesian tentang LASSO didasarkan pada pengambilan mode posterior.

— www3
sumber