Dalam pengaturan mana yang Anda harapkan model yang ditemukan oleh LARS paling berbeda dari model yang ditemukan oleh pencarian lengkap?

Sedikit info lagi; seandainya

Anda tahu sebelumnya berapa banyak variabel untuk dipilih dan bahwa Anda menetapkan penalti kompleksitas dalam prosedur LARS seperti memiliki banyak variabel dengan koefisien bukan 0,
biaya perhitungan bukan masalah (jumlah total variabel kecil, katakanlah 50),
bahwa semua variabel (y, x) kontinu.

Dalam pengaturan apa model LARS (yaitu kesesuaian OLS dari variabel-variabel yang memiliki koefisien tidak nol dalam kecocokan LARS) akan paling berbeda dari model dengan jumlah koefisien yang sama tetapi ditemukan melalui pencarian lengkap (a regsubsets ())?

Sunting: Saya menggunakan 50 variabel dan 250 pengamatan dengan koefisien nyata yang diambil dari standar gaussian kecuali untuk 10 variabel yang memiliki koefisien 'nyata' 0 (dan semua fitur sangat berkorelasi satu sama lain). Pengaturan ini jelas tidak baik karena perbedaan antara dua set variabel yang dipilih adalah menit. Ini benar-benar pertanyaan tentang jenis konfigurasi data apa yang harus disimulasikan untuk mendapatkan perbedaan terbanyak.

regression model-selection

— pengguna603
sumber

Jawaban:

Berikut adalah deskripsi dari algoritma LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Ini agak mengabaikan korelasi antara para regressor jadi saya berani menebak bahwa itu mungkin akan ketinggalan cocok dalam kasus multikolinieritas.

— Alex
sumber

itulah yang sebenarnya memotivasi pertanyaan saya. Saya telah mensimulasikan pengaturan dengan 50 variabel di mana nilai terbesar vif lebih dari 30 dan saya masih melihat sedikit perbedaan (misalnya dalam hal R ^ 2 model yang dipilih) antara kedua pendekatan.

— user603

Saya sendiri telah menemukan jawaban yang berbeda dengan stepAIC dan lars dan akan membayangkan bahwa masalah saya akan diperlakukan dengan kelompok LASSO - ini bukan tentang VIF dari seluruh matriks, tetapi sejumlah kelompok variabel berkorelasi.

— Alex

Interresting ... bagaimana Anda menghasilkan data seperti itu? (Yaitu dengan kelompok variabel berkorelasi)

— user603

Susun sejumlah kelompok independen dengan korelasi di dalamnya. Saya sendiri memiliki banyak pertanyaan yang sama tentang sejumlah merek - orang cenderung menyukai merek pilihan mereka dan tidak menyukai yang lain.

— Alex

Semakin banyak fitur yang Anda miliki, dalam kaitannya dengan jumlah sampel, semakin besar kemungkinan Anda mendapatkan metode pencarian eksaustif dibandingkan dengan LARS. Istilah penalti yang digunakan dalam LARS membebankan struktur bersarang model yang semakin kompleks, diindeks oleh parameter regularisasi tunggal, sehingga "derajat kebebasan" pemilihan fitur dengan LARS cukup rendah. Untuk pencarian exaustive, ada satu derajat kebebasan efektif (biner) per fitur, yang berarti bahwa pencarian exaustive lebih mampu mengeksploitasi variabilitas acak dalam kriteria pemilihan fitur karena pengambilan sampel acak data. Akibatnya, model pencarian exaustive kemungkinan besar sangat pas untuk kriteria pemilihan fitur, karena "kelas hipotesis" lebih besar.

— Dikran Marsupial
sumber

Jawaban Anda tampaknya tidak terkait dengan pertanyaan saya. Untuk memperjelas: Saya benar-benar tertarik untuk menghasilkan situasi di mana subset variabel yang dipilih sebagai aktif oleh LARS akan sangat berbeda dari yang dipilih oleh pencarian lengkap, dengan ini diukur dengan, katakanlah, perbedaan R ^ 2 antara model LARS dan model pencarian lengkap dengan jumlah variabel aktif yang sama . Bisakah Anda memikirkan kasus musuh di mana perbedaan ini akan besar? Bisakah Anda ulang frase jawaban Anda dalam istilah ini?

— user603

Jawaban saya terkait langsung dengan pertanyaan Anda. Tingkat over-fitting tidak hanya dikendalikan oleh jumlah fitur, tetapi oleh nilai bobot. Sehingga dimungkinkan untuk over-fit tanpa menggunakan lebih banyak fitur. LARS memberikan penalti pada bobot bobot, sehingga tidak memilih fitur yang hanya mengurangi kerugian kuadrat dengan mengorbankan bobot bobot besar, itulah sebabnya mengapa ia cenderung tidak terlalu pas. Metode pencarian exaustive pada dasarnya adalah resep untuk over-fitting, sehingga Anda akan mendapatkan solusi yang sangat berbeda dalam situasi di mana over-fitting kemungkinan terjadi.

— Dikran Marsupial

Ok, saya mengerti maksud Anda: itu berasal dari sesuatu yang saya singgung di pertanyaan awal saya (dan semoga menjadi lebih jelas sekarang). Saya benar-benar membandingkan apel dengan apel di sini (yaitu model yang dipilih), atau dengan kata lain, (R ^ 2 dari) OLS cocok menggunakan variabel yang dipilih oleh LARS dan (R ^ 2 dari) OLS cocok menggunakan mereka variabel yang dipilih oleh pencarian lengkap. Saya tidak secara langsung menggunakan koefisien LARS ....

— user603

Itu bukan ortogonal, satu model tidak mungkin lebih baik daripada yang lain tanpa berbeda. Dalam situasi di mana pemasangan berlebihan mungkin terjadi, model berbasis pencarian exaustive cenderung tidak stabil, yaitu jika Anda mengumpulkan 500 sampel yang berbeda, Anda cenderung mendapatkan serangkaian fitur yang berbeda. Sebaliknya LARS cenderung lebih stabil. Apakah 50 fitur dan 500 sampel adalah likley untuk menghasilkan overfitting tergantung pada sifat dataset, tetapi tentu saja mungkin. Pencarian yang lengkap bertanggung jawab untuk memilih fitur yang menjelaskan variabilitas yang khas pada sampel ini; LAR kurang dari itu.

— Dikran Marsupial

Mungkin membantu jika Anda bisa menjelaskan mengapa Anda ingin melakukan itu. Saya menduga hal yang perlu Anda perhatikan adalah besarnya bobot model yang sebenarnya serta distribusi data. Model regresi yang dihukum (LASSO, LARS, Elaris net, regresi ridge) memiliki prioritas pada distribusi bobot yang diharapkan, jadi jika Anda memiliki dataset yang tidak valid, itu mungkin tempat yang baik untuk memulai.

— Dikran Marsupial