Baru-baru ini saya telah belajar bahwa salah satu cara untuk menemukan solusi yang lebih baik untuk masalah ML adalah dengan membuat fitur. Seseorang dapat melakukannya dengan, misalnya, menjumlahkan dua fitur.
Sebagai contoh, kami memiliki dua fitur "serangan" dan "pertahanan" semacam pahlawan. Kami kemudian membuat fitur tambahan yang disebut "total" yang merupakan jumlah dari "serangan" dan "pertahanan". Sekarang yang menurut saya aneh adalah bahwa "serangan" dan "pertahanan" yang tangguh sekalipun hampir sepenuhnya berkorelasi dengan "total" kita masih mendapatkan informasi yang bermanfaat.
Apa matematika di balik itu? Atau apakah saya beralasan salah?
Selain itu, apakah itu bukan masalah, untuk pengklasifikasi seperti kNN, bahwa "total" akan selalu lebih besar dari "serangan" atau "pertahanan"? Jadi, bahkan setelah standarisasi kita akan memiliki fitur yang mengandung nilai dari rentang yang berbeda?