Saya memiliki database dari aplikasi Facebook saya dan saya mencoba menggunakan pembelajaran mesin untuk memperkirakan usia pengguna berdasarkan situs Facebook yang mereka sukai.
Ada tiga karakteristik penting dari basis data saya:
distribusi usia di set pelatihan saya (12k jumlah pengguna) condong ke pengguna yang lebih muda (yaitu saya memiliki 1157 pengguna berusia 27, dan 23 pengguna berusia 65);
banyak situs yang memiliki tidak lebih dari 5 liker (saya memfilter situs FB dengan kurang dari 5 liker).
ada lebih banyak fitur daripada sampel.
Jadi, pertanyaan saya adalah: strategi apa yang akan Anda sarankan untuk menyiapkan data untuk analisis lebih lanjut? Haruskah saya melakukan semacam pengurangan dimensi? Metode ML mana yang paling tepat untuk digunakan dalam kasus ini?
Saya terutama menggunakan Python, jadi petunjuk khusus Python akan sangat dihargai.