Saya punya pertanyaan praktis tentang rekayasa fitur ... katakanlah saya ingin memprediksi harga rumah dengan menggunakan regresi logistik dan menggunakan banyak fitur termasuk kode pos. Kemudian dengan memeriksa pentingnya fitur, saya menyadari zip adalah fitur yang cukup bagus, jadi saya memutuskan untuk menambahkan beberapa fitur berdasarkan zip - misalnya, saya pergi ke biro sensus dan mendapatkan penghasilan rata-rata, populasi, jumlah sekolah, dan jumlah rumah sakit masing-masing zip. Dengan keempat fitur baru ini, saya menemukan performa model yang lebih baik sekarang. Jadi saya menambahkan lebih banyak fitur yang berhubungan dengan zip ... Dan siklus ini terus berlanjut. Akhirnya model akan didominasi oleh fitur-fitur terkait zip ini, kan?
Pertanyaan saya:
- Apakah masuk akal melakukan ini di tempat pertama?
- Jika ya, bagaimana saya tahu kapan waktu yang tepat untuk menghentikan siklus ini?
- Jika tidak, mengapa tidak?