Katakanlah saya ingin membuat Logistic Classifier untuk film M. Fitur saya akan seperti usia orang, jenis kelamin, pekerjaan, lokasi. Jadi set latihan akan menjadi seperti:
- Lokasi Pekerjaan Jenis Kelamin Seperti (1) / Tidak Suka (0)
- 23 M Perangkat Lunak US 1
- 24 F Dokter UK 0
dan seterusnya .... Sekarang pertanyaan saya adalah bagaimana saya harus mengukur dan merepresentasikan fitur saya. Salah satu cara saya berpikir: Bagi usia sebagai kelompok umur, jadi 18-25, 25-35, 35 di atas, Jenis kelamin sebagai M, F, Lokasi sebagai AS, Inggris, Lainnya. Sekarang buat fitur biner untuk semua nilai ini, maka usia akan memiliki 3 fitur biner yang masing-masing terkait dengan kelompok umur dan seterusnya. Jadi, 28 tahun Pria dari AS akan diwakili sebagai 010 10 100 (010-> Kelompok Umur 25-35, 10 -> Pria, 100 -> AS)
Apa yang bisa menjadi cara terbaik untuk mewakili fitur di sini? Juga, saya perhatikan dalam beberapa mis. dari sklearn bahwa semua fitur telah diskalakan / dinormalisasi dalam beberapa cara, misalnya Jender diwakili oleh dua nilai, 0,0045 dan -,0,0045 untuk Pria dan wanita. Saya tidak tahu bagaimana melakukan scaling / mormalisasi seperti ini?