Secara pribadi, saya suka membagi pemilihan fitur menjadi dua:
- pemilihan fitur tanpa pengawasan
- pemilihan fitur yang diawasi
Pemilihan fitur yang tidak diawasi adalah hal-hal seperti pengelompokan atau PCA di mana Anda memilih rentang fitur yang paling tidak berlebihan (atau membuat fitur dengan sedikit redundansi). Pemilihan fitur yang diawasi adalah hal-hal seperti Lasso di mana Anda memilih fitur dengan daya prediksi paling besar.
Saya pribadi biasanya lebih suka apa yang saya sebut pemilihan fitur yang dilindungi. Jadi, ketika menggunakan regresi linier, saya akan memilih fitur berdasarkan Lasso. Metode serupa ada untuk menginduksi sparseness dalam jaringan saraf.
Tapi memang, saya tidak melihat bagaimana saya akan melakukan itu dalam metode menggunakan kernel, jadi Anda mungkin lebih baik menggunakan apa yang saya sebut pemilihan fitur yang tidak diawasi.
EDIT: Anda juga bertanya tentang regularisasi. Saya melihat regularisasi sebagai membantu sebagian besar karena kami bekerja dengan sampel yang terbatas, sehingga pelatihan dan distribusi pengujian akan selalu agak berbeda, dan Anda ingin model Anda tidak sesuai. Saya tidak yakin itu menghilangkan keharusan untuk menghindari memilih fitur (jika Anda memang memiliki terlalu banyak). Saya pikir memilih fitur (atau membuat subset yang lebih kecil) membantu dengan membuat fitur yang Anda miliki lebih kuat dan menghindari model untuk belajar dari korelasi palsu. Jadi, regularisasi memang membantu, tetapi tidak yakin bahwa itu adalah alternatif yang lengkap. Tapi saya belum cukup memikirkan hal ini.