Saya memiliki dataset dengan 330 sampel dan 27 fitur untuk setiap sampel, dengan masalah kelas biner untuk Regresi Logistik.
Menurut "aturan jika sepuluh" saya membutuhkan setidaknya 10 peristiwa untuk setiap fitur untuk dimasukkan. Padahal, saya memiliki dataset yang tidak seimbang, dengan 20% kelas positif dan 80% kelas negatif.
Itu memberi saya hanya 70 peristiwa, yang memungkinkan sekitar 7/8 fitur untuk dimasukkan dalam model Logistik.
Saya ingin mengevaluasi semua fitur sebagai prediktor, saya tidak ingin memilih sendiri fitur apa pun.
Jadi apa yang akan Anda sarankan? Haruskah saya membuat semua kemungkinan 7 kombinasi fitur? Haruskah saya mengevaluasi setiap fitur sendirian dengan model asosiasi dan kemudian hanya memilih yang terbaik untuk model akhir?
Saya juga ingin tahu tentang penanganan fitur-fitur kategorikal dan kontinu, dapatkah saya mencampurkannya? Jika saya memiliki kategori [0-1] dan kontinu [0-100], haruskah saya menormalkan kembali?
Saya sedang bekerja dengan Python.
Terima kasih banyak atas bantuan Anda!