Metode ini - jaring laso dan elastis - lahir dari masalah pemilihan fitur dan prediksi. Melalui dua lensa inilah saya pikir penjelasan dapat ditemukan.
Matthew Gunn menjelaskan dengan baik dalam jawabannya bahwa kedua gol ini berbeda dan sering diambil oleh orang yang berbeda. Namun, untungnya bagi kami, metode yang kami minati dapat tampil baik di kedua arena.
Pemilihan Fitur
Pertama, mari kita bicara tentang pemilihan fitur. Pertama-tama kita harus memotivasi jaring elastis dari perspektif laso. Yaitu, mengutip Hastie dan Zou , "Jika ada kelompok variabel di mana korelasi berpasangan sangat tinggi, maka laso cenderung memilih hanya satu variabel dari grup dan tidak peduli mana yang dipilih." Ini adalah masalah, misalnya, karena itu berarti bahwa kita tidak akan menemukan elemen dukungan yang sebenarnya menggunakan laso - hanya satu yang sangat berkorelasi dengannya. (Makalah menyebutkan bahwa ini terbukti dalam makalah LARS, yang saya belum baca.) Kesulitan dukungan pemulihan di hadapan korelasi juga ditunjukkan oleh Wainwright ,0,5 ketika ada korelasi tinggi antara dukungan sejati dan komplemennya.
Sekarang, hukuman l2 di jaring elastis mendorong fitur yang memiliki koefisien diperlakukan sebagai tidak dapat dibedakan hanya dengan kerugian dan hukuman l1 memiliki koefisien estimasi yang sama. Kita dapat dengan bebas melihat ini dengan memperhatikan bahwa memenuhi. Karena ini, jaring elastis membuatnya sehingga kita cenderung 'tidak sengaja' membuat menghilang estimasi koefisien yang ada di dukungan sebenarnya. Artinya, dukungan sebenarnya lebih mungkin terkandung dalam perkiraan dukungan. Itu bagus! Itu berarti ada lebih banyak penemuan palsu, tetapi itu adalah harga yang kebanyakan orang mau bayar.| a | = | b |( a , b ) = argminSebuah′, b′: c = | Sebuah′| + | b′|( a′)2+ ( b′)2| a | = | b |
Selain itu, perlu ditunjukkan bahwa fakta bahwa fitur yang berkorelasi tinggi akan cenderung memiliki estimasi koefisien yang sangat mirip sehingga kita dapat mendeteksi pengelompokan fitur dalam perkiraan dukungan yang mempengaruhi respons yang sama.
Ramalan
Sekarang, kita beralih ke prediksi. Seperti yang ditunjukkan Matthew Gunn, memilih parameter tuning melalui validasi silang menciptakan tujuan untuk memilih model dengan kesalahan prediksi minimal. Karena setiap model yang dipilih oleh laso dapat dipilih oleh jaring elastis (dengan mengambil ), masuk akal bahwa jaring elastis mampu menemukan model yang memprediksi lebih baik daripada laso.α=1
Lederer, Yu, dan Gaynanova menunjukkan, tanpa asumsi sama sekali pada fitur, bahwa laso dan jaring elastis keduanya dapat memiliki kesalahan prediksi l2 mereka dibatasi oleh jumlah yang sama. Itu tidak selalu benar bahwa ikatan mereka ketat, tetapi ini mungkin menarik untuk dicatat karena kesenjangan oracle tampaknya menjadi cara standar dalam literatur statistik untuk mengukur kinerja prediktor penduga - mungkin karena distribusinya sangat rumit! Perlu juga dicatat bahwa Lederer (1) (2) memiliki beberapa makalah tentang prediksi laso di hadapan fitur yang berkorelasi.
Ringkasan
Singkatnya, masalah yang menarik adalah dukungan yang sebenarnya berada dalam perkiraan dukungan dan prediksi. Untuk pemulihan dukungan, ada jaminan yang telah terbukti secara ketat (melalui Wainwright) bahwa laso memilih fitur yang benar untuk berada dalam model dengan asumsi korelasi rendah antara dukungan yang sebenarnya dan pelengkapnya. Namun, dengan adanya korelasi, kita dapat kembali ke jaring elastis untuk lebih cenderung memilih fitur dalam dukungan nyata untuk menjadi di antara semua yang dipilihnya. (Perhatikan bahwa kita harus hati-hati memilih parameter tuning di sini.) Dan, untuk prediksi ketika kita memilih parameter tuning melalui validasi silang, masuk akal intuitif bahwa jaring elastis harus berkinerja lebih baik daripada laso - terutama di hadapan korelasi .
Mengesampingkan prediksi dan formalitas, apa yang kita pelajari? Kami belajar tentang dukungan sejati.
Interval Keyakinan
Perlu menunjukkan bahwa banyak yang telah berubah dalam 2 tahun terakhir sehubungan dengan kesimpulan yang valid untuk laso. Secara khusus, karya Lee, Sun, Sun, dan Taylor memberikan inferensi yang tepat untuk koefisien laso bersyarat pada model yang dipilih. (Hasil inferensi in laso untuk koefisien sebenarnya ada pada saat posting OP, dan mereka dirangkum dengan baik di kertas terkait.)