Bayesian laso vs laso biasa

24

Perangkat lunak implementasi yang berbeda tersedia untuk laso . Saya tahu banyak membahas tentang pendekatan bayesian vs pendekatan frequentist di berbagai forum. Pertanyaan saya sangat spesifik untuk laso - Apa perbedaan atau kelebihan dari baysian laso vs laso biasa ?

Berikut adalah dua contoh implementasi dalam paket:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Jadi kapan saya harus pergi untuk satu atau metode lain? Atau mereka sama?

r machine-learning linear-model lasso

— belajar
sumber

30

Laso standar menggunakan penalti regularisasi L1 untuk mencapai sparsity dalam regresi. Perhatikan bahwa ini juga dikenal sebagai Basis Pursuit .

Dalam kerangka Bayesian, pilihan regulariser analog dengan pilihan sebelumnya atas bobot. Jika Gaussian prior digunakan, maka solusi Maximum a Posteriori (MAP) akan sama seperti jika hukuman L2 digunakan. Meskipun tidak secara langsung setara, Laplace prior (yang memuncak tajam di sekitar nol, tidak seperti Gaussian yang halus di sekitar nol), menghasilkan efek penyusutan yang sama dengan penalti L1. Makalah ini menjelaskan Bayesian Lasso. .

Bahkan, ketika Anda menempatkan Laplace di atas parameter, solusi MAP harus identik (tidak hanya serupa) dengan regularisasi dengan penalti L1 dan Laplace prior akan menghasilkan efek penyusutan yang identik dengan penalti L1. Namun, karena baik perkiraan dalam prosedur inferensi Bayesian, atau masalah numerik lainnya, solusi mungkin sebenarnya tidak identik.

Dalam kebanyakan kasus, hasil yang dihasilkan oleh kedua metode akan sangat mirip. Bergantung pada metode optimisasi dan apakah perkiraan digunakan, laso standar mungkin akan lebih efisien untuk dikomputasi daripada versi Bayesian. Bayesian secara otomatis menghasilkan perkiraan interval untuk semua parameter, termasuk varians kesalahan, jika ini diperlukan.

— tdc
sumber

"Jika Gaussian prior digunakan, maka solusi Maximum Likelihood akan sama ....". Ungkapan yang disorot harus membaca "Maximum A Posteriori (MAP)" karena estimasi Kemungkinan Maksimum hanya akan mengabaikan distribusi sebelumnya atas parameter, yang mengarah ke solusi yang tidak diregulasi sedangkan estimasi MAP mempertimbangkan terlebih dahulu.

— mefathy

1

Saat Anda menempatkan Laplace di atas parameter, solusi MAP akan identik (tidak hanya serupa) dengan regularisasi dengan penalti L1 dan Laplace prior akan menghasilkan efek penyusutan yang identik dengan penalti L1.

— mefathy

@ mefati ya Anda benar di kedua hal (tidak percaya saya menulis ML bukan MAP ....), meskipun tentu saja dalam prakteknya YMMV. Saya telah memperbarui jawaban untuk memasukkan kedua komentar.

— tdc

6

"Kuadrat Terkecil" berarti bahwa solusi keseluruhan meminimalkan jumlah kuadrat dari kesalahan yang dibuat dalam hasil setiap persamaan tunggal. Aplikasi yang paling penting adalah dalam pemasangan data. Yang paling cocok dalam arti kuadrat-terkecil meminimalkan jumlah residu kuadrat, residu menjadi perbedaan antara nilai yang diamati dan nilai pas yang disediakan oleh model. linear kuadrat terkecil, tergantung pada apakah residu linier dalam semua yang tidak diketahui.

Regresi linier Bayesian adalah pendekatan regresi linier di mana analisis statistik dilakukan dalam konteks inferensi Bayesian. Ketika model regresi memiliki kesalahan yang memiliki distribusi normal, dan jika bentuk tertentu dari distribusi sebelumnya diasumsikan, hasil eksplisit tersedia untuk distribusi probabilitas posterior dari parameter model.

$\|\beta\|^2$

$\|\beta\|_1$

Salah satu perbedaan utama antara Lasso dan regresi ridge adalah bahwa dalam regresi ridge, karena penalti meningkat, semua parameter dikurangi sementara masih tetap tidak nol, sedangkan di Lasso, peningkatan penalti akan menyebabkan semakin banyak parameter menjadi didorong ke nol.

Makalah ini membandingkan laso biasa dengan lasso Bayesian dan regresi ridge (lihat gambar 1 ).

— John
sumber