(Dengan asumsi Anda berbicara tentang pembelajaran yang diawasi)
Fitur terkait tidak akan selalu memperburuk model Anda, tetapi mereka tidak akan selalu memperbaikinya juga.
Ada tiga alasan utama mengapa Anda akan menghapus fitur berkorelasi:
- Jadikan algoritma pembelajaran lebih cepat
Karena kutukan dimensi, fitur yang kurang biasanya berarti peningkatan tinggi dalam hal kecepatan.
Jika kecepatan bukan masalah, mungkin jangan langsung menghapus fitur-fitur ini (lihat poin berikutnya)
Kata kunci berbahaya. Jika Anda memiliki fitur yang berkorelasi tetapi mereka juga berkorelasi dengan target, Anda ingin tetap menggunakannya. Anda dapat melihat fitur sebagai petunjuk untuk membuat tebakan yang baik, jika Anda memiliki dua petunjuk yang pada dasarnya sama, tetapi itu adalah petunjuk yang baik, mungkin bijaksana untuk menyimpannya.
Beberapa algoritma seperti Naive Bayes sebenarnya secara langsung mendapat manfaat dari fitur yang berkorelasi "positif". Dan yang lain seperti hutan acak mungkin secara tidak langsung mendapat manfaat darinya.
Bayangkan memiliki 3 fitur A, B, dan C. A dan B sangat berkorelasi dengan target dan satu sama lain, dan C tidak sama sekali. Jika Anda mencicipi dari 3 fitur, Anda memiliki 2/3 peluang untuk mendapatkan fitur "baik", sedangkan jika Anda menghapus B misalnya, peluang ini turun menjadi 1/2
Tentu saja, jika fitur yang dikorelasikan tidak super informatif di tempat pertama, algoritma mungkin tidak terlalu menderita.
Begitu bermoral dari cerita ini, menghapus fitur-fitur ini mungkin diperlukan karena kecepatan, tetapi ingat bahwa Anda mungkin membuat algoritma Anda lebih buruk dalam prosesnya. Juga, beberapa algoritma seperti pohon keputusan memiliki pemilihan fitur yang tertanam di dalamnya.
Cara yang baik untuk mengatasinya adalah dengan menggunakan metode pembungkus untuk pemilihan fitur. Ini akan menghapus fitur yang berlebihan hanya jika mereka tidak berkontribusi langsung ke kinerja. Jika mereka berguna seperti di bayes naif, mereka akan disimpan. (Meskipun ingat bahwa metode pembungkus mahal dan dapat menyebabkan overfitting)
- Interpretabilitas model Anda
Jika model Anda perlu ditafsirkan, Anda mungkin terpaksa membuatnya lebih sederhana. Pastikan juga mengingat pisau cukur Occam. Jika model Anda tidak "jauh" lebih buruk dengan lebih sedikit fitur, maka Anda mungkin harus menggunakan lebih sedikit fitur.