Pemilihan fitur mungkin mempertimbangkan tahapan yang harus dihindari. Anda harus menghabiskan waktu perhitungan untuk menghapus fitur dan benar-benar kehilangan data dan metode yang harus Anda lakukan untuk memilih fitur tidak optimal karena masalahnya adalah NP-Complete . Menggunakannya tidak terdengar seperti tawaran yang tidak bisa Anda tolak.
Jadi, apa manfaatnya menggunakannya?
- Banyak fitur dan rasio sampel / fitur yang rendah akan memasukkan noise ke dalam dataset Anda. Dalam kasus seperti itu, algoritma klasifikasi Anda cenderung overfit, dan memberi Anda perasaan salah tentang kinerja yang baik.
- Mengurangi jumlah fitur akan mengurangi waktu berjalan di tahap selanjutnya. Itu pada gilirannya akan memungkinkan Anda menggunakan algoritma dengan kompleksitas yang lebih tinggi, mencari lebih banyak parameter hiper, atau melakukan lebih banyak evaluasi.
- Seperangkat fitur yang lebih kecil lebih mudah dipahami manusia. Itu akan memungkinkan Anda untuk fokus pada sumber prediktabilitas utama dan melakukan rekayasa fitur yang lebih tepat. Jika Anda harus menjelaskan model Anda kepada klien, Anda lebih baik menghadirkan model dengan 5 fitur daripada model dengan 200 fitur.
Sekarang untuk kasus spesifik Anda: Saya sarankan Anda mulai menghitung korelasi antara fitur dan konsep. Komputasi korelasi di antara semua fitur juga informatif. Perhatikan bahwa ada banyak jenis korelasi yang berguna (misalnya, Pearson , Informasi bersama ) dan banyak atribut yang mungkin mempengaruhi mereka (misalnya, jarang, konsep tidak seimbang). Memeriksa mereka alih-alih secara membabi buta dengan algoritma pemilihan fitur mungkin menghemat banyak waktu di masa depan.
Saya tidak berpikir bahwa Anda akan memiliki banyak masalah waktu berjalan dengan dataset Anda. Namun, rasio sampel / fitur Anda tidak terlalu tinggi sehingga Anda dapat mengambil manfaat dari pemilihan fitur.
Pilih penggolong dengan kompleksitas rendah (misalnya, regresi linier, pohon keputusan kecil) dan gunakan sebagai patokan. Cobalah pada set data lengkap dan pada beberapa dataset dengan subset fitur. Tolok ukur seperti itu akan membimbing Anda dalam penggunaan pemilihan fitur. Anda akan memerlukan panduan seperti itu karena ada banyak opsi (misalnya, jumlah fitur untuk dipilih, algoritma pemilihan fitur) dan karena tujuan biasanya adalah predikasi dan bukan pemilihan fitur sehingga umpan balik setidaknya satu langkah lagi.