Saya sedang mengerjakan dataset dengan 200.000+ sampel dan sekitar 50 fitur per sampel: 10 variabel kontinu dan yang lainnya ~ 40 adalah variabel kategori (negara, bahasa, bidang ilmiah, dll.). Untuk variabel kategori ini, misalnya Anda memiliki 150 negara yang berbeda, 50 bahasa, 50 bidang ilmiah dll ...
Sejauh ini pendekatan saya adalah:
Untuk setiap variabel kategori dengan banyak nilai yang memungkinkan, ambil hanya satu yang memiliki lebih dari 10.000 sampel yang mengambil nilai ini. Ini berkurang menjadi 5-10 kategori, bukan 150.
Bangun variabel dummy untuk masing-masing kategori (jika 10 negara maka untuk setiap sampel tambahkan vektor biner ukuran 10).
Feed a classifier hutan acak (lintas-validasi parameter dll ...) dengan data ini.
Saat ini dengan pendekatan ini, saya hanya berhasil mendapatkan akurasi 65% dan saya merasa lebih banyak yang bisa dilakukan. Terutama saya tidak puas dengan 1 saya) karena saya merasa saya seharusnya tidak boleh secara sewenang-wenang menghapus "nilai yang paling relevan" sesuai dengan jumlah sampel yang mereka miliki, karena nilai yang kurang terwakili ini bisa lebih diskriminatif. Di sisi lain, RAM saya tidak mampu menambahkan 500 kolom * 200000 baris ke data dengan menjaga semua nilai yang mungkin.
Apakah Anda punya saran untuk mengatasi banyak variabel kategori ini?