Saya menjalankan model regresi baik dengan Lasso dan Ridge (untuk memprediksi variabel hasil diskrit mulai dari 0-5). Sebelum menjalankan model, saya menggunakan SelectKBest
metode scikit-learn
untuk mengurangi set fitur dari 250 menjadi 25 . Tanpa pemilihan fitur awal, Lasso dan Ridge menghasilkan skor akurasi yang lebih rendah [yang mungkin disebabkan oleh ukuran sampel yang kecil, 600]. Juga, perhatikan bahwa beberapa fitur berkorelasi.
Setelah menjalankan model, saya amati bahwa akurasi prediksi hampir sama dengan Lasso dan Ridge. Namun, ketika saya memeriksa 10 fitur pertama setelah memesannya dengan nilai absolut dari koefisien, saya melihat bahwa ada paling banyak% 50 tumpang tindih.
Artinya, mengingat pentingnya fitur yang berbeda ditugaskan oleh masing-masing metode, saya mungkin memiliki interpretasi yang sama sekali berbeda berdasarkan model yang saya pilih.
Biasanya, fitur-fitur tersebut mewakili beberapa aspek perilaku pengguna di situs web. Oleh karena itu, saya ingin menjelaskan temuan dengan menyoroti fitur (perilaku pengguna) dengan kemampuan prediksi yang lebih kuat vs fitur yang lebih lemah (perilaku pengguna). Namun, saya tidak tahu bagaimana bergerak maju pada saat ini. Bagaimana saya harus mendekati untuk menafsirkan model? Misalnya, harus menggabungkan keduanya dan menyorot yang tumpang tindih, atau haruskah saya pergi dengan Lasso karena memberikan lebih banyak interpretabilitas?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .