Untuk regresi Lasso, misalkan solusi terbaik (contohnya kesalahan pengujian minimum) memilih fitur , sehingga \ hat {\ beta} ^ {lasso} = \ kiri (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ benar) .
Kita tahu bahwa adalah perkiraan bias dari , jadi mengapa kita masih menggunakan sebagai solusi akhir, alih-alih yang lebih 'masuk akal' , di mana adalah taksiran LS dari model parsial . ( menunjukkan kolom sesuai dengan fitur yang dipilih ).
Secara singkat, mengapa kita menggunakan Lasso baik untuk pemilihan fitur dan estimasi parameter, alih-alih hanya untuk pemilihan variabel (dan membiarkan estimasi pada fitur yang dipilih untuk OLS)?
(Juga, apa artinya 'Lasso dapat memilih paling banyak fitur'? adalah ukuran sampel.)