Pilihan penalti yang optimal untuk laso

15

Apakah ada hasil analitik atau makalah eksperimental mengenai pilihan optimal dari koefisien hukuman $\ell_1$ . Secara optimal , maksud saya parameter yang memaksimalkan probabilitas memilih model terbaik, atau yang meminimalkan kerugian yang diharapkan. Saya bertanya karena seringkali tidak praktis untuk memilih parameter dengan cross-validation atau bootstrap, baik karena sejumlah besar contoh masalah, atau karena ukuran masalah yang dihadapi. Satu-satunya hasil positif yang saya ketahui adalah Candes and Plan, pemilihan model yang mendekati ideal dengan minimalisasi $\ell_1$ .

model-selection lasso shrinkage

— gappy
sumber

2

Apakah Anda mengetahui makalah yang menetapkan hasil konsistensi untuk laso? Knight & Fu (2000), Yu & Zhao (2006), dan berbagai makalah oleh Meinshausen.

— kardinal

Ya, tapi pertanyaan saya bukan tentang konsistensi asimptotik, yang merupakan pokok dari makalah yang Anda sebutkan.

— gappy

1

Makalah-makalah itu (terutama) tentang konsistensi pemilihan model , yang menurut saya sangat terkait dengan pertanyaan yang Anda ajukan. :)

— kardinal

2

Teorema Checkout 5.1 Bickel et al ini. . Pilihan statistik yang optimal dalam hal kesalahan $\|y-\hat{y}(\lambda)\|_2^2$ adalah (dengan probabilitas tinggi), untuk konstanta $\lambda = A \sigma_{\text{noise}} \sqrt{\dfrac{\log p}{n}}$ . $A > 2\sqrt{2}$

— dohmatob
sumber

Ini sepertinya tidak sesuai dengan undang-undang karena membutuhkan pengetahuan

. Bahkan, justru masalah inilah yang memotivasi laso akar kuadrat ( arxiv.org/pdf/1009.5689.pdf )

σ_{n o i s e}

$\sigma_\mathrm{noise}$

— user795305

5

Saya menganggap bahwa Anda sebagian besar tertarik pada regresi, seperti dalam makalah yang dikutip, dan bukan aplikasi lain dari hukuman (grafis laso, katakanlah). $\ell_1$

Saya kemudian percaya bahwa beberapa jawaban dapat ditemukan di koran Pada "derajat kebebasan" dari laso oleh Zou et al. Secara singkat, ini memberikan formula analitik untuk tingkat kebebasan efektif , yang untuk hilangnya kesalahan kuadrat memungkinkan Anda untuk mengganti CV dengan analitik -jenis statistik, mengatakan. $C_p$

Tempat lain untuk melihat adalah dalam pemilih Dantzig: Estimasi statistik ketika p jauh lebih besar dari n dan makalah diskusi dalam edisi yang sama Annals of Statistics. Pemahaman saya adalah bahwa mereka memecahkan masalah yang berkaitan erat dengan regresi laso tetapi dengan pilihan koefisien penalti yang tetap. Tapi tolong lihat makalah diskusi juga.

Jika Anda tidak tertarik pada prediksi, tetapi dalam pemilihan model, saya tidak mengetahui hasil yang sama. Prediksi model optimal sering menghasilkan terlalu banyak variabel terpilih dalam model regresi. Di koran pemilihan Stabilitas Meinshausen dan Bühlmann menyajikan teknik subsampling yang lebih berguna untuk pemilihan model, tetapi mungkin terlalu komputasional untuk kebutuhan Anda.

— NRH
sumber

(+1) Ketiga makalah tersebut layak dibaca dengan cermat bagi mereka yang tertarik pada subjek ini. Makalah pemilih Dantzig memiliki matematika yang sangat bagus; Namun, saya belum melihatnya mendapatkan banyak daya tarik dalam aplikasi, saya juga tidak mengharapkannya. Saya pikir, antara lain, jalur regularisasi yang sangat bising membuat orang gelisah dan, tanpa keuntungan nyata dari laso, membuatnya menjadi sulit dijual.

— kardinal

Hum, perhatikan bahwa meskipun jumlah koefisien bukan nol untuk nilai tertentu dari parameter regularisasi adalah estimasi yang tidak bias untuk DoF pada nilai itu, estimasi ini sangat varians sangat tinggi.

— dohmatob

1

Karena pertanyaan ini telah diajukan, kemajuan menarik telah dibuat. Sebagai contoh, pertimbangkan makalah ini

Chichignoud, M., Lederer, J., & Wainwright, M. (2016). Skema Praktis dan Algoritma Cepat untuk Menyetel Lasso Dengan Jaminan Optimalitas. Jurnal Penelitian Pembelajaran Mesin, 17, 1–17.

Mereka mengusulkan metode untuk memilih parameter tuning LASSO dengan jaminan sampel terbatas yang dapat dibuktikan untuk pemilihan model. Seperti yang mereka katakan dalam makalah, "Untuk skema kalibrasi standar, di antaranya Validasi Silang, tidak ada jaminan yang sebanding yang tersedia dalam literatur. Faktanya, kami tidak mengetahui adanya jaminan sampel terbatas untuk skema kalibrasi standar".

— pengguna795305
sumber

0

Ini tidak menjawab pertanyaan Anda, tetapi: dalam pengaturan data yang besar, mungkin lebih baik untuk menyelaraskan pembuat peraturan dengan menggunakan kereta tunggal / uji split, alih-alih melakukannya 10 kali atau lebih dalam cross-validation (atau lebih untuk bootstrap). Ukuran dan keterwakilan sampel yang dipilih untuk devset menentukan keakuratan estimasi regulator yang optimal.

Dalam pengalaman saya, kerugian yang tertunda relatif datar di atas kisaran regulator yang substansial. Saya yakin fakta ini mungkin tidak berlaku untuk masalah lain.

— Brendan OConnor
sumber