Sedikit info lagi; seandainya
- Anda tahu sebelumnya berapa banyak variabel untuk dipilih dan bahwa Anda menetapkan penalti kompleksitas dalam prosedur LARS seperti memiliki banyak variabel dengan koefisien bukan 0,
- biaya perhitungan bukan masalah (jumlah total variabel kecil, katakanlah 50),
- bahwa semua variabel (y, x) kontinu.
Dalam pengaturan apa model LARS (yaitu kesesuaian OLS dari variabel-variabel yang memiliki koefisien tidak nol dalam kecocokan LARS) akan paling berbeda dari model dengan jumlah koefisien yang sama tetapi ditemukan melalui pencarian lengkap (a regsubsets ())?
Sunting: Saya menggunakan 50 variabel dan 250 pengamatan dengan koefisien nyata yang diambil dari standar gaussian kecuali untuk 10 variabel yang memiliki koefisien 'nyata' 0 (dan semua fitur sangat berkorelasi satu sama lain). Pengaturan ini jelas tidak baik karena perbedaan antara dua set variabel yang dipilih adalah menit. Ini benar-benar pertanyaan tentang jenis konfigurasi data apa yang harus disimulasikan untuk mendapatkan perbedaan terbanyak.