Saya memiliki kumpulan data sekitar 5000 fitur. Untuk data itu saya pertama kali menggunakan uji Chi Square untuk pemilihan fitur; setelah itu, saya mendapat sekitar 1500 variabel yang menunjukkan hubungan signifikan dengan variabel respon.
Sekarang saya harus menyesuaikan regresi logistik. Saya menggunakan paket glmulti untuk R (paket glmulti menyediakan pilihan subset yang efisien untuk vlm) tetapi dapat menggunakan hanya 30 fitur pada satu waktu, jika tidak kinerjanya turun karena jumlah baris dalam dataset saya sekitar 20000.
Apakah ada pendekatan atau teknik lain untuk menyelesaikan masalah di atas? Jika saya menggunakan metode di atas, akan terlalu banyak waktu untuk menyesuaikan model.
sklearn
's LogisticRegression
dan itu memecahkan 4000 fitur, 20.000 baris masalah dalam sekitar satu menit di laptop saya.