Regresi sudut terkecil vs laso


39

Regresi sudut terkecil dan laso cenderung menghasilkan jalur regularisasi yang sangat mirip (identik kecuali ketika koefisien melintasi nol.)

Keduanya cocok secara efisien dengan algoritma yang hampir identik.

Adakah alasan praktis untuk lebih menyukai satu metode daripada yang lain?


Jika Anda menilai kembali jawaban pada saat ini, apakah Anda akan memilih jawaban "diterima" yang berbeda?
Aaron Hall

Jawaban:


13

Teorema "tanpa makan siang gratis" menunjukkan bahwa tidak ada perbedaan a-priori antara algoritma inferensi statistik, yaitu apakah LARS atau LASSO bekerja paling baik tergantung pada sifat dataset tertentu. Dalam praktiknya, yang terbaik adalah mencoba keduanya dan menggunakan beberapa penaksir kinerja generalisasi yang andal untuk memutuskan mana yang akan digunakan dalam operasi (atau menggunakan ansambel). Karena perbedaan antara LARS dan LASSO agak sedikit, perbedaan dalam kinerja cenderung agak sedikit juga, tetapi secara umum hanya ada satu cara untuk mengetahui dengan pasti!


Bisakah Anda memperluas kemungkinan 'metode ensemble' dalam kasus khusus ini?
chl

35

Ketika digunakan dalam mode stage-wise, algoritma LARS adalah metode serakah yang tidak menghasilkan estimator yang terbukti konsisten (dengan kata lain, itu tidak menyatu dengan hasil yang stabil ketika Anda menambah jumlah sampel).

Sebaliknya, LASSO (dan dengan demikian algoritma LARS saat digunakan dalam mode LASSO) memecahkan masalah pemasangan data cembung. Secara khusus, masalah ini (L1 estimator linier dihukum) memiliki banyak sifat terbukti bagus (konsistensi, sparsistency).

Dengan demikian saya akan mencoba untuk selalu menggunakan LARS dalam mode LASSO (atau menggunakan solver lain untuk LASSO), kecuali jika Anda memiliki alasan yang sangat bagus untuk lebih memilih tahap-bijaksana.


9

LASSO bukan algoritma semata, tetapi operator.

1

Yang lain adalah LARS, sangat populer karena kesederhanaannya, koneksi dengan prosedur maju (namun tidak terlalu serakah), bukti yang sangat konstruktif dan generalisasi yang mudah.

Bahkan dibandingkan dengan pemecah pemrograman kuadratik yang canggih, LARS bisa jauh lebih efisien.


9

l1l1l2

Tujuan dari jawaban ini adalah untuk menunjukkan bahwa LARS saat ini tampaknya telah diunggulkan dengan metode koordinat-keturunan dan metode -koordinat-keturunan stokastik . Metode-metode ini didasarkan pada algoritma yang sangat sederhana, sementara pada saat yang sama kinerjanya tampaknya lebih tinggi daripada LARS (seringkali satu atau dua kali lipat lebih cepat). Sebagai contoh, lihat makalah ini dari Friedman et al.

Jadi, jika Anda berencana untuk mengimplementasikan LARS, jangan. Gunakan koordinat-descent yang membutuhkan waktu beberapa jam.


1
+1 untuk tidak menerapkan LARS tetapi mengoordinasikan penurunan: ia memang memiliki pengaturan di mana ia lebih baik daripada mengoordinasikan keturunan (misalnya untuk masalah ukuran kecil dan mod yang sangat jarang, lihat tesis Julien Mairal untuk perbandingan empiris), tetapi sangat sulit untuk diimplementasikan dengan benar, jauh lebih sulit daripada mengoordinasikan keturunan.
Gael Varoquaux

3

λ


Inilah pendapat saya:

Chal

Selain itu, LAR secara komputasi cepat dan andal. Lasso cepat tetapi ada perbedaan kecil antara algoritma yang menyebabkan LARS memenangkan tantangan kecepatan. Di sisi lain ada paket alternatif misalnya dalam R, yang disebut 'glmnet' yang berfungsi lebih dapat diandalkan daripada paket lars (karena lebih umum).

Singkatnya, tidak ada yang signifikan yang dapat dipertimbangkan tentang lars dan laso. Itu tergantung pada konteks yang akan Anda gunakan model.

Saya pribadi menyarankan menggunakan glmnet dalam R dalam kasus dimensi tinggi dan rendah. atau jika Anda tertarik pada kriteria yang berbeda, Anda dapat menggunakan http://cran.r-project.org/web/packages/msgps/ paket.


0

Dalam beberapa konteks, versi teregulasi dari solusi kuadrat terkecil mungkin lebih disukai. Algoritma LASSO (operator penyusutan dan pemilihan absolut), misalnya, menemukan solusi kuadrat-terkecil dengan kendala yang | β | 1, norma L1 dari vektor parameter, tidak lebih besar dari nilai yang diberikan. Secara ekuivalen, ia dapat menyelesaikan minimalisasi tak terbatas dari penalti kuadrat-terkecil dengan α | β | 1 menambahkan, di mana α adalah konstan (ini adalah bentuk Lagrangian dari masalah yang dibatasi.) Masalah ini dapat diselesaikan dengan menggunakan pemrograman kuadratik atau metode optimisasi cembung yang lebih umum, serta dengan algoritma khusus seperti algoritma regresi sudut paling sedikit. Formulasi yang diregulasi dengan L1 berguna dalam beberapa konteks karena kecenderungannya untuk lebih menyukai solusi dengan lebih sedikit nilai parameter bukan nol, secara efektif mengurangi jumlah variabel di mana solusi yang diberikan tergantung. [11] Untuk alasan ini, LASSO dan variannya merupakan hal mendasar dalam bidang penginderaan terkompresi.


5
Dengan hormat, ini terlihat seperti copy-paste langsung dari Wikipedia, dan tidak benar-benar menjawab pertanyaan.
NPE

3
(-1) Paling tidak, Anda harus mengakui kutipan dari Wikipedia, § pada metode LASSO di en.wikipedia.org/wiki/Least_squares !!! BTW Anda lupa menempelkan referensi ke-11.
chl

Saya lupa memasang tautan, itu benar, tetapi bagaimanapun saya pikir itu adalah jawaban yang bagus untuk pertanyaan ini. Maaf jika saya membuat Anda berpikir saya menulis itu
mariana soffer

Akan lebih bermanfaat jika merujuk ke The Lasso Page dalam kasus itu. Sekarang, pertanyaannya adalah tentang pro dan kontra LAR dan Lasso, bukan tentang apa yang sebenarnya dilakukan Lasso. Algoritma LARS mungkin mudah dimodifikasi untuk menghasilkan solusi bagi estimator lain, seperti Lasso; ini bekerja dengan baik dinhal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.