Mengapa pemilihan subset terbaik tidak disukai dibandingkan dengan laso?

Saya membaca tentang pemilihan subset terbaik dalam Elemen buku pembelajaran statistik. Jika saya memiliki 3 prediktor , saya membuat $x_1,x_2,x_3$ $2^3=8$ himpunan bagian:

Subset tanpa prediktor
himpunan bagian dengan prediktor $x_1$
himpunan bagian dengan prediktor $x_2$
bagian dengan prediktor $x_3$
himpunan bagian dengan prediktor $x_1,x_2$
himpunan bagian dengan prediktor $x_1,x_3$
himpunan bagian dengan prediktor $x_2,x_3$
himpunan bagian dengan prediktor $x_1,x_2,x_3$

Lalu saya menguji semua model ini pada data uji untuk memilih yang terbaik.

Sekarang pertanyaan saya adalah mengapa pemilihan subset terbaik tidak disukai dibandingkan dengan misalnya laso?

Jika saya membandingkan fungsi thresholding dari subset dan laso terbaik, saya melihat bahwa subset terbaik menetapkan beberapa koefisien ke nol, seperti laso. Tapi, koefisien lainnya (yang bukan nol) masih akan memiliki nilai ols, mereka akan unbiasd. Sedangkan, dalam laso beberapa koefisien akan menjadi nol dan yang lainnya (yang tidak nol) akan memiliki beberapa bias. Gambar di bawah ini menunjukkan lebih baik:

Dari gambar bagian dari garis merah dalam case bagian terbaik diletakkan pada yang abu-abu. Bagian lainnya adalah meletakkan di sumbu x di mana beberapa koefisien adalah nol. Garis abu-abu mendefinisikan solusi yang tidak bias. Dalam laso, beberapa bias diperkenalkan oleh . Dari gambar ini saya melihat bahwa subset terbaik lebih baik daripada laso! Apa kerugian menggunakan subset terbaik? $\lambda$

— Ville
sumber

.. dan seperti apa kurva itu ketika keacakan data menyebabkan Anda memilih salah satu dari banyak subset yang salah dan perkiraan koefisien yang terkait jauh dari nol relatif terhadap kesalahan standarnya?

— jbowman

@jbowman Saya tidak mengerti dengan jelas, mengapa keacakan dalam data menyebabkan saya memilih yang salah? Jika saya akan menggunakan validasi silang untuk memilih subset terbaik, maka saya akan memiliki peluang lebih kecil untuk memilih subset yang salah.

— Ville

Anda tampaknya menyamakan "bias kurang" dengan "lebih baik". Apa yang membuat Anda menempatkan nilai tinggi pada ketidakberpihakan?

— Matthew Drury

Jawaban:

Dalam pemilihan subset, parameter bukan nol hanya akan tidak bias jika Anda telah memilih superset dari model yang benar, yaitu, jika Anda telah menghapus hanya prediktor yang nilai koefisien sebenarnya adalah nol. Jika prosedur pemilihan Anda membuat Anda mengecualikan prediktor dengan koefisien bukan nol yang sebenarnya, semua perkiraan koefisien akan menjadi bias. Ini mengalahkan argumen Anda jika Anda setuju bahwa seleksi biasanya tidak sempurna.

Dengan demikian, untuk memastikan "estimasi model yang tidak bias, Anda harus melakukan kesalahan dengan memasukkan lebih banyak, atau bahkan semua prediktor yang berpotensi relevan. Artinya, Anda tidak boleh memilih sama sekali.

Mengapa ini ide yang buruk? Karena tradeoff bias-varians. Ya, model besar Anda akan tidak bias, tetapi akan memiliki varian yang besar, dan varians akan mendominasi kesalahan prediksi (atau lainnya).

Oleh karena itu, lebih baik menerima perkiraan parameter itu bias tetapi memiliki varians yang lebih rendah (regularisasi), daripada berharap bahwa pilihan subset kami hanya menghapus parameter benar nol sehingga kami memiliki model yang tidak bias dengan varians yang lebih besar.

Karena Anda menulis bahwa Anda menilai kedua pendekatan menggunakan validasi silang, ini mengurangi beberapa masalah di atas. Satu masalah yang tersisa untuk Subset Terbaik tetap: itu membatasi beberapa parameter menjadi nol dan membiarkan yang lain mengambang bebas. Jadi ada diskontinuitas dalam estimasi, yang tidak ada jika kita mengubah laso melampaui titik mana prediktor dimasukkan atau dikecualikan. Misalkan cross-validasi menghasilkan "optimal" yang dekat dengan , jadi kita pada dasarnya tidak yakin apakah p harus dimasukkan atau tidak. Dalam hal ini, saya berpendapat bahwa itu lebih masuk akal untuk membatasi $\lambda$ $\lambda_0$ $p$ $\lambda$ $\lambda_0$ $\hat{\beta}_p$ melalui lasso ke (absolut) nilai kecil, daripada baik benar-benar mengecualikan , atau membiarkannya mengambang $\hat{\beta}_p=0$ $\hat{\beta}_p=\hat{\beta}_p^{\text{OLS}}$ , sebagai Best Subset tidak.

Ini mungkin membantu: Mengapa penyusutan berfungsi?

— Stephan Kolassa
sumber

Hmm. Saya tidak berpikir ini menjawab mengapa subset terbaik lebih buruk daripada laso (yang merupakan pertanyaan utama di sini).

— Amuba mengatakan Reinstate Monica

@amoeba: apakah Anda ingin menguraikan?

— Stephan Kolassa

Yah, saya mengerti pertanyaan yang menanyakan mengapa laso lebih disukai daripada subset terbaik. Bayangkan kita menempatkan keduanya dalam loop validasi silang, dan kemudian tune parameter laso atau temukan subset terbaik. Laso biasanya direkomendasikan. Saya mengerti pertanyaan itu menanyakan Mengapa? (lihat misalnya judul Q) dan saya tidak yakin jawaban Anda benar-benar menjawab itu. Atau apakah saya salah mengerti jawaban Anda?

— Amuba mengatakan Reinstate Monica

λ

$\lambda$

λ_{0}

$\lambda_0$

p

$p$

p

$p$

λ \approx λ_{0}

$\lambda\approx\lambda_0$

{\hat{β}}_{p}

$\hat{\beta}_p$

Setuju bahwa jawaban ini tidak benar-benar menjawab pertanyaan - Saya telah menambahkan pendapat saya tentang ini di bawah ...

— Tom Wenseleers

Pada prinsipnya, jika subset terbaik dapat ditemukan, itu memang lebih baik daripada LASSO, dalam hal (1) memilih variabel yang benar-benar berkontribusi pada kecocokan, (2) tidak memilih variabel yang tidak berkontribusi terhadap kecocokan, (3) akurasi prediksi dan (4) menghasilkan estimasi dasarnya tidak memihak untuk variabel yang dipilih. Salah satu makalah baru-baru ini yang berpendapat untuk kualitas superior dari subset terbaik atas LASSO adalah bahwa oleh Bertsimas et al (2016) "Pilihan subset terbaik melalui lensa optimisasi modern" . Satu lagi yang lebih tua memberikan contoh konkret (pada dekonvolusi kereta lonjakan) di mana subset terbaik lebih baik daripada LASSO atau punggungan adalah oleh de Rooi & Eilers (2011).

$L_0$ $L_1$ $L_0$ $L_q$ Regresi yang dikenakan sanksi dengan q mendekati 0 pada prinsipnya akan lebih dekat ke pemilihan subset terbaik daripada LASSO, tetapi ini bukan lagi masalah optimisasi cembung, dan karenanya cukup sulit untuk dipasangkan ).

Untuk mengurangi bias LASSO kita dapat menggunakan pendekatan multistep turunan, seperti LASSO adaptif (di mana koefisien secara berbeda dihukum berdasarkan perkiraan sebelumnya dari kuadrat terkecil atau kecocokan regresi ridge) atau santai LASSO (solusi sederhana adalah dengan melakukan kuadrat terkecil dari variabel yang dipilih oleh LASSO). Dibandingkan dengan subset terbaik, LASSO cenderung memilih variabel sedikit terlalu banyak. Pilihan subset terbaik lebih baik, tetapi lebih sulit untuk disesuaikan.

$L_0$ memberikan perbandingan ekstensif subset terbaik, LASSO dan beberapa varian LASSO seperti santai LASSO, dan mereka mengklaim bahwa santai LASSO adalah salah satu yang menghasilkan akurasi prediksi model tertinggi di bawah berbagai keadaan terluas, yaitu mereka datang ke kesimpulan yang berbeda dari Bertsimas. Tetapi kesimpulan tentang mana yang terbaik sangat tergantung pada apa yang Anda anggap terbaik (misalnya akurasi prediksi tertinggi, atau terbaik dalam memilih variabel yang relevan dan tidak termasuk variabel yang tidak relevan; regresi ridge misalnya biasanya memilih variabel terlalu banyak tetapi akurasi prediksi untuk kasus dengan variabel yang sangat collinear bisa sangat baik).

Untuk masalah yang sangat kecil dengan 3 variabel seperti yang Anda gambarkan, jelas pilihan subset terbaik adalah pilihan yang lebih disukai.

— Tom Wenseleers
sumber

Apa arti "lebih baik" dari frasa "lebih baik daripada laso"?

— Matthew Drury

Mengapa subset terbaik sama dengan menggunakan penalti L0? Subset terbaik memilih subset terbaik (dengan kesalahan validasi terendah) di antara himpunan bagian ukuran apa pun; setidaknya itulah yang disarankan OP dalam pertanyaan mereka. Penalti L0 membutuhkan ukuran himpunan bagian

k

$k$ (yang ditentukan oleh parameter regularisasi

λ

$\lambda$ ); seseorang dapat mencari yang terbaik

k

$k$ menggunakan set validasi, dan kemudian itu adalah subset ukuran terbaik

k

$k$ di semua kemungkinan

k

$k$ ... oke, sekarang saya melihat bahwa itu sama :-)

— amuba mengatakan Reinstate Monica

Mengedit jawaban saya sedikit untuk memberikan lebih banyak detail ...

— Tom Wenseleers

Saya tidak berpikir ada jawaban yang mengatasi masalah stabilitas. Seperti langkah demi langkah dan semua regresi himpunan bagian yang mungkin, lassosangat tidak stabil. Dengan kata lain jika Anda harus mem-bootstrap seluruh proses, Anda akan menemukan terlalu banyak kesewenang-wenangan dalam daftar fitur yang dipilih.

— Frank Harrell

Ya, variabel yang dipilih oleh LASSO dapat menjadi tidak stabil, dan ini lebih dari itu merupakan kasus untuk regresi subset terbaik - regresi net elastis sedikit lebih baik dalam hal ini - yang cenderung memasukkan terlalu banyak variabel saat itu, tetapi dipilih dalam variabel yang lebih banyak. cara stabil, dan dapat memberikan akurasi prediksi yang lebih baik di bawah collinearity tinggi. Tetapi banyak tergantung pada apa kriteria yang paling penting untuk aplikasi Anda - akurasi prediksi, tingkat positif palsu termasuk variabel yang tidak relevan atau tingkat negatif palsu tidak termasuk variabel yang sangat relevan ...

— Tom Wenseleers