Saya mencoba menggunakan fitur penting dari Random Forests untuk melakukan beberapa pilihan fitur empiris untuk masalah regresi di mana semua fitur bersifat kategoris dan banyak dari mereka memiliki banyak tingkatan (pada urutan 100-1000). Mengingat bahwa pengodean satu-panas membuat variabel dummy untuk setiap level, kepentingan fitur adalah untuk setiap level dan bukan setiap fitur (kolom). Apa cara yang baik untuk menggabungkan pentingnya fitur ini?
Saya berpikir tentang menjumlahkan atau mendapatkan kepentingan rata-rata untuk semua level fitur (mungkin yang pertama akan bias terhadap fitur-fitur dengan level lebih banyak). Apakah ada referensi tentang masalah ini?
Apa lagi yang bisa dilakukan seseorang untuk mengurangi jumlah fitur? Saya mengetahui grup laso, tidak dapat menemukan sesuatu yang mudah digunakan untuk scikit-belajar.