Hubungan LASSO antara dan

Pemahaman saya tentang regresi LASSO adalah bahwa koefisien regresi dipilih untuk menyelesaikan masalah minimalisasi:

min_{β} ‖ y - X β ‖_{2}^{2} s . t . ‖ β ‖_{1} \leq t

$\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t$

Dalam praktiknya ini dilakukan dengan menggunakan pengali Lagrange, membuat masalah untuk dipecahkan

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1$

Apa hubungan antara $\lambda$ dan $t$ ? Wikipedia tidak membantu hanya menyatakan bahwa "tergantung data".

Kenapa saya peduli? Pertama karena keingintahuan intelektual. Tetapi saya juga khawatir tentang konsekuensi untuk memilih $\lambda$ dengan cross-validation.

Secara khusus, jika saya melakukan validasi silang n-lipat, saya memasangkan n model yang berbeda dengan n partisi berbeda dari data pelatihan saya. Saya kemudian membandingkan akurasi masing-masing model pada data yang tidak digunakan untuk diberikan $\lambda$ . Tetapi sama $\lambda$ menyiratkan kendala yang berbeda ( $t$ ) untuk himpunan bagian data yang berbeda (yaitu, $t=f(\lambda)$ adalah "data dependen").

Bukankah masalah validasi silang saya benar-benar ingin menyelesaikan untuk menemukan $t$ yang memberikan trade-off bias-akurasi terbaik?

Saya bisa mendapatkan gambaran kasar tentang ukuran efek ini dalam praktik dengan menghitung untuk setiap pemisahan validasi silang dan dan melihat distribusi yang dihasilkan. Dalam beberapa kasus, kendala tersirat ( ) dapat bervariasi diam secara substansial di seluruh subset validasi silang saya. Di mana secara substansial yang saya maksud adalah koefisien variasi dalam . $\|\beta\|_1$ $\lambda$ $t$ $t>>0$

— ConstantAmateur
sumber

Upvoting untuk membatalkan downvote yang tidak dijelaskan. Pertanyaannya jauh di luar keahlian saya tetapi tampaknya dirumuskan dengan wajar.

— mkt - Reinstate Monica

Ini adalah solusi standar untuk regresi ridge :

β = {(X^{'} X + λ I)}^{- 1} X^{'} y

$\beta = \left( X'X + \lambda I \right) ^{-1} X'y$

Kita juga tahu bahwa , jadi itu pasti benar $\| \beta \| = t$

‖ {(X^{'} X + λ I)}^{- 1} X^{'} y ‖ = t

$\| \left( X'X + \lambda I \right) ^{-1} X'y \| = t$ .

yang tidak mudah dipecahkan untuk . $\lambda$

Taruhan terbaik Anda adalah terus melakukan apa yang Anda lakukan: menghitung pada sub-sampel data yang sama di beberapa nilai . $t$ $\lambda$

— shadowtalker
sumber