Saya memiliki fitur jarang yang bersifat prediksi, juga saya memiliki beberapa fitur padat yang juga dapat memprediksi. Saya perlu menggabungkan fitur-fitur ini bersama-sama untuk meningkatkan kinerja keseluruhan classifier.
Sekarang, masalahnya adalah ketika saya mencoba untuk menggabungkan ini bersama-sama, fitur padat cenderung lebih mendominasi fitur jarang, maka hanya memberikan peningkatan 1% pada AUC dibandingkan dengan model dengan hanya fitur padat.
Adakah yang mengalami masalah serupa? Sangat menghargai input, agak macet. Saya sudah mencoba banyak pengklasifikasi yang berbeda, kombinasi pengklasifikasi, transformasi fitur dan pemrosesan dengan algoritma yang berbeda.
Terima kasih sebelumnya atas bantuannya.
Edit :
Saya sudah mencoba saran yang diberikan di komentar. Apa yang saya amati adalah, untuk hampir 45% dari data, fitur jarang berkinerja sangat baik, saya mendapatkan AUC sekitar 0,9 dengan hanya fitur jarang, tetapi untuk fitur padat yang tersisa berkinerja baik dengan AUC sekitar 0,75. Saya agak mencoba memisahkan dataset ini, tetapi saya mendapatkan AUC 0,6, jadi, saya tidak bisa begitu saja melatih model dan memutuskan fitur mana yang akan digunakan.
Mengenai cuplikan kode, saya telah mencoba banyak hal, sehingga saya tidak yakin apa yang harus dibagikan :(