Bagaimana menafsirkan hasil ketika ridge dan laso secara terpisah berkinerja baik tetapi menghasilkan koefisien yang berbeda

Saya menjalankan model regresi baik dengan Lasso dan Ridge (untuk memprediksi variabel hasil diskrit mulai dari 0-5). Sebelum menjalankan model, saya menggunakan SelectKBestmetode scikit-learnuntuk mengurangi set fitur dari 250 menjadi 25 . Tanpa pemilihan fitur awal, Lasso dan Ridge menghasilkan skor akurasi yang lebih rendah [yang mungkin disebabkan oleh ukuran sampel yang kecil, 600]. Juga, perhatikan bahwa beberapa fitur berkorelasi.

Setelah menjalankan model, saya amati bahwa akurasi prediksi hampir sama dengan Lasso dan Ridge. Namun, ketika saya memeriksa 10 fitur pertama setelah memesannya dengan nilai absolut dari koefisien, saya melihat bahwa ada paling banyak% 50 tumpang tindih.

Artinya, mengingat pentingnya fitur yang berbeda ditugaskan oleh masing-masing metode, saya mungkin memiliki interpretasi yang sama sekali berbeda berdasarkan model yang saya pilih.

Biasanya, fitur-fitur tersebut mewakili beberapa aspek perilaku pengguna di situs web. Oleh karena itu, saya ingin menjelaskan temuan dengan menyoroti fitur (perilaku pengguna) dengan kemampuan prediksi yang lebih kuat vs fitur yang lebih lemah (perilaku pengguna). Namun, saya tidak tahu bagaimana bergerak maju pada saat ini. Bagaimana saya harus mendekati untuk menafsirkan model? Misalnya, harus menggabungkan keduanya dan menyorot yang tumpang tindih, atau haruskah saya pergi dengan Lasso karena memberikan lebih banyak interpretabilitas?

— renakre
sumber

(+1) Regulasi dapat dilihat sebagai membuat perkiraan koefisien individu lebih buruk sambil meningkatkan kinerja kolektif mereka dalam memprediksi tanggapan baru. Apa tepatnya yang ingin Anda capai dengan interpretasi Anda?

— Scortchi

@Scortchi terima kasih telah merespons. Saya menambahkan ini

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— renakre

+1 AFAIK hubungan antara koefisien ridge dan lambda tidak harus monoton, sementara di laso itu. Dengan demikian, pada tingkat penyusutan tertentu nilai absolut dari koefisien dalam ridge dan laso dapat sangat bervariasi. Karena itu, saya akan sangat menghargai jika seseorang dapat membuat sketsa bukti ini atau segera menjelaskannya secara matematis

— Łukasz Grad

Pastikan Anda menyortir koefisien "beta". Lihat stats.stackexchange.com/a/243439/70282 Anda bisa mendapatkannya dengan melatih variabel standar atau dengan penyesuaian nanti seperti dijelaskan dalam tautan.

— Chris

@ ŁukaszGrad LASSO koefisien tidak perlu fungsi monoton jika prediktor berkorelasi; lihat gambar 6.6 dari ISLR sebagai contoh.

λ

$\lambda$

— EdM

Regresi punggungan mendorong semua koefisien menjadi kecil. Lasso mendorong banyak koefisien [**] menjadi nol, dan beberapa non-nol. Keduanya akan mengurangi akurasi pada set pelatihan, tetapi meningkatkan prediksi dengan beberapa cara:

ridge regression mencoba untuk meningkatkan generalisasi pada set pengujian, dengan mengurangi pakaian berlebih
laso akan mengurangi jumlah koefisien non-nol, bahkan jika ini menghukum kinerja pada kedua pelatihan dan set tes

Anda bisa mendapatkan berbagai pilihan koefisien jika data Anda sangat berkorelasi. Jadi, Anda mungkin memiliki 5 fitur yang berkorelasi:

dengan menetapkan koefisien kecil tetapi tidak nol untuk semua fitur ini, regresi ridge dapat mencapai kerugian yang rendah pada set pelatihan, yang mungkin secara umum masuk akal untuk menguji set
laso mungkin hanya memilih satu saja, yang berkorelasi baik dengan empat lainnya. dan tidak ada alasan mengapa harus memilih fitur dengan koefisien tertinggi dalam versi regresi ridge

[*] untuk definisi makna 'pilih': memberikan koefisien bukan nol, yang masih agak melambai, karena koefisien regresi ridge cenderung semuanya tidak nol, tetapi misalnya beberapa mungkin seperti 1e-8 , dan yang lainnya mungkin misal 0,01

Nuansa [**]: seperti yang ditunjukkan oleh Richard Hardy, untuk beberapa kasus penggunaan, nilai dapat dipilih yang akan menghasilkan semua koefisien LASSO menjadi nol, tetapi dengan sedikit penyusutan $\lambda$

— Hugh Perkins
sumber

Saran yang bagus Pemeriksaan yang baik adalah dengan melakukan matriks korelasi. Variabel yang tidak tumpang tindih mungkin sangat berkorelasi.

— Chris

Jawaban yang bagus! Namun, saya tidak yakin itu adil untuk menyarankan bahwa punggungan secara universal mencoba untuk meningkatkan kinerja pengujian sementara tidak mengatakan hal yang sama untuk laso. Misalnya, jika model sebenarnya jarang (dan dalam subset prediktor kami), kami dapat langsung berharap laso memiliki kinerja pengujian yang lebih baik daripada ridge

— user795305

Ini adalah prinsip 'bertaruh pada sparsity'. Misalnya, melihat plot pertama di sini: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

Perbandingan pilihan variabel (LASSO) dan koefisien regresi antara beberapa sampel bootstrap data dapat dengan baik menggambarkan masalah ini. Dengan prediktor yang berkorelasi, yang dipilih oleh LASSO dari bootstraps yang berbeda bisa sangat berbeda sambil tetap memberikan kinerja prediksi yang serupa. Idealnya, seluruh proses pembuatan model termasuk pengurangan set fitur awal harus diulangi pada beberapa bootstraps untuk mendokumentasikan kualitas proses.

— EdM

dengan memilih 4 fitur ini, dengan koefisien agak rendah, atau bahkan semuanya, sekali lagi dengan koefisien kecil, tetapi tidak nol, regresi ridge dapat menurunkan kerugian pada set pelatihan - regresi ridge tidak memilih variabel. Juga, untuk nilai , laso akan memilih semua variabel tetapi melakukan beberapa penyusutan, seperti halnya bubungan.

λ

$\lambda$

— Richard Hardy