Saya mungkin berurusan dengan masalah yang mungkin telah dipecahkan seratus kali sebelumnya, tetapi saya tidak yakin di mana menemukan jawabannya.
Ketika menggunakan regresi logistik, diberikan banyak fitur dan mencoba memprediksi nilai kategorikal biner , saya tertarik untuk memilih subset dari fitur yang memprediksi baik. y y
Apakah ada prosedur yang mirip dengan laso yang dapat digunakan? (Saya hanya melihat laso yang digunakan untuk regresi linier.)
Apakah dengan melihat koefisien dari model yang dipasang mengindikasikan pentingnya fitur yang berbeda?
Sunting - Klarifikasi Setelah Melihat Beberapa Jawaban:
Ketika saya merujuk pada besarnya koefisien yang dipasang, maksud saya yang disesuaikan dengan fitur yang dinormalisasi (rata-rata 0 dan varian 1). Jika tidak, seperti yang ditunjukkan oleh @probabilityislogic, 1000x akan tampak kurang penting daripada x.
Saya tidak tertarik hanya menemukan k-subset terbaik (seperti yang ditawarkan @Davide), tetapi lebih mempertimbangkan pentingnya fitur yang berbeda relatif satu sama lain. Misalnya, satu fitur mungkin "usia", dan fitur lainnya "usia> 30". Pentingnya tambahan mereka mungkin sedikit, tetapi keduanya mungkin penting.