Banyak algoritma pembelajaran mesin, misalnya jaringan saraf, mengharapkan untuk berurusan dengan angka. Jadi, ketika Anda memiliki data kategorikal, Anda perlu mengubahnya. Maksud saya kategorikal, misalnya:
Merek mobil: Audi, BMW, Chevrolet ... ID Pengguna: 1, 25, 26, 28 ...
Meskipun id pengguna adalah angka, itu hanya label, dan tidak berarti apa pun dalam hal kesinambungan, seperti usia atau jumlah uang.
Jadi, pendekatan dasar tampaknya menggunakan vektor biner untuk menyandikan kategori:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Tidak apa-apa ketika ada beberapa kategori, tetapi di luar itu terlihat sedikit tidak efisien. Misalnya, saat Anda memiliki 10.000 id pengguna untuk disandikan, berarti 10.000 fitur.
Pertanyaannya adalah, adakah cara yang lebih baik? Mungkin satu yang melibatkan probabilitas?