Rekayasa fitur sering merupakan komponen penting untuk pembelajaran mesin (itu digunakan sangat banyak untuk memenangkan Piala KDD pada 2010 ). Namun, saya menemukan bahwa sebagian besar teknik teknik fitur baik
- hancurkan makna intuitif dari fitur yang mendasarinya atau
- sangat spesifik untuk domain tertentu atau bahkan tipe fitur tertentu.
Contoh klasik dari yang pertama adalah analisis komponen utama. Tampak bagi saya bahwa pengetahuan apa pun yang dimiliki oleh seorang ahli subjek tentang fitur akan dihancurkan dengan mengubah fitur-fitur tersebut ke komponen utama.
Bandingkan itu dengan teknik sederhana mengubah tanggal menjadi fitur untuk "hari bulan" dan "hari dalam seminggu." Arti yang mendasarinya masih dipertahankan dalam fitur-fitur baru, tetapi jelas teknik khusus ini hanya berlaku untuk tanggal dan bukan fitur sewenang-wenang.
Apakah ada badan standar teknik rekayasa fitur yang tidak merusak makna fitur yang mendasari sementara juga berlaku untuk domain sewenang-wenang (atau setidaknya berbagai macam domain)?