Saya menganggap maksud Anda pemilihan fitur sebagai rekayasa fitur . Proses yang biasanya saya ikuti dan saya lihat beberapa orang lakukan adalah
- Rekayasa fitur
Coba beberapa algoritma, biasanya yang berkinerja tinggi seperti RandomForest, Gradient Boosted Trees, Neutral Networks, atau SVM pada fitur.
2.1 Lakukan penyetelan parameter sederhana seperti pencarian grid pada sejumlah kecil parameter
Jika hasil langkah 2 tidak memuaskan, kembali ke langkah 1 untuk menghasilkan lebih banyak fitur, atau menghapus fitur yang berlebihan dan mempertahankan yang terbaik, orang biasanya memanggil pemilihan fitur ini . Jika kehabisan ide untuk fitur baru, coba algoritma lainnya.
Jika hasilnya baik-baik saja atau mendekati apa yang Anda inginkan, maka lanjutkan ke langkah 3
- Penyesuaian parameter yang luas
Alasan untuk melakukan ini adalah bahwa klasifikasi adalah semua tentang rekayasa fitur , dan kecuali Anda tahu beberapa pengklasifikasi kuat yang luar biasa seperti pembelajaran mendalam yang disesuaikan untuk masalah tertentu, seperti Computer Vision. Menghasilkan fitur yang baik adalah kuncinya. Memilih classifier adalah penting tetapi tidak penting. Semua pengklasifikasi yang disebutkan di atas cukup sebanding dalam hal kinerja, dan sebagian besar waktu, pengklasifikasi terbaik ternyata menjadi salah satunya.
Penyesuaian parameter dapat meningkatkan kinerja, dalam beberapa kasus, cukup banyak. Tetapi tanpa fitur yang bagus, penyetelan tidak banyak membantu. Ingat, Anda selalu punya waktu untuk penyetelan parameter. Juga, tidak ada gunanya mengatur parameter secara luas maka Anda menemukan fitur baru dan mengulang semuanya.