Saya sedang membangun model dan saya pikir bahwa lokasi geografis cenderung sangat baik dalam memprediksi variabel target saya. Saya memiliki kode pos masing-masing pengguna saya. Saya tidak sepenuhnya yakin tentang cara terbaik untuk memasukkan kode pos sebagai fitur prediktor dalam model saya. Meskipun kode pos adalah angka, itu tidak berarti apa-apa jika jumlahnya naik atau turun. Saya bisa membuat binarize semua 30.000 kode pos dan kemudian memasukkannya sebagai fitur atau kolom baru (misalnya, {user_1: {61822: 1, 62118: 0, 62444: 0, dll.}}. Namun, ini sepertinya akan menambah satu ton fitur untuk model saya.
Adakah pemikiran tentang cara terbaik untuk menangani situasi ini?