Saya belajar tentang pemilihan fitur. Saya bisa melihat mengapa itu penting dan bermanfaat, untuk pembuatan model. Tetapi mari kita fokus pada tugas-tugas pembelajaran (klasifikasi) yang diawasi. Mengapa pemilihan fitur penting, untuk tugas klasifikasi?
Saya melihat banyak literatur yang ditulis tentang pemilihan fitur dan penggunaannya untuk pembelajaran yang diawasi, tetapi ini membingungkan saya. Pemilihan fitur adalah tentang mengidentifikasi fitur mana yang harus dibuang. Secara intuitif, membuang beberapa fitur tampaknya merugikan diri sendiri: itu membuang informasi. Sepertinya melempar informasi seharusnya tidak membantu.
Dan bahkan jika menghapus beberapa fitur memang membantu, jika kita membuang beberapa fitur dan kemudian memasukkan sisanya ke dalam algoritma pembelajaran yang diawasi, mengapa kita perlu melakukannya sendiri, daripada membiarkan algoritma pembelajaran yang diawasi menanganinya? Jika beberapa fitur tidak membantu, bukankah seharusnya ada algoritma pembelajaran yang diawasi yang layak secara implisit menemukan itu dan mempelajari model yang tidak menggunakan fitur itu?
Jadi secara intuitif saya akan berharap bahwa pemilihan fitur akan menjadi latihan sia-sia yang tidak pernah membantu dan kadang-kadang bisa menyakitkan. Tetapi fakta bahwa ini sangat banyak digunakan dan ditulis tentang membuat saya curiga bahwa intuisi saya salah. Adakah yang bisa memberikan intuisi mengapa pemilihan fitur berguna dan penting, ketika melakukan pembelajaran yang diawasi? Mengapa ini meningkatkan kinerja pembelajaran mesin? Apakah ini tergantung pada classifier yang saya gunakan?