Saya telah mengerjakan data yang terlatih untuk algoritma Word2vec. Karena kita membutuhkan kata-kata untuk tetap seperti aslinya, kita tidak membuatnya menjadi huruf kecil pada tahap preprocessing. Jadi ada kata-kata dengan variasi berbeda (mis. "Bumi" dan "bumi").
Satu-satunya cara saya dapat memikirkan adalah untuk mengambil rata-rata vektor untuk "Bumi" dan "bumi" untuk membuat vektor tunggal untuk mewakili kata. (Karena dimensi vektor fitur serupa)
Apakah ini metode "oke"? Jika tidak, apa cara yang baik untuk menangani masalah ini?
Catatan: Menurunkan semua kata dalam praproses bukanlah pilihan untuk saat ini.
Sunting: Info tentang apakah dimensi fitur benar-benar linier atau tidak juga akan membantu.
Sunting 2: Menggabungkan kedua jawaban dari patapouf_ai
dan yazhi
memberikan hasil terbaik. Bagaimana ini digabungkan? Rata-rata tertimbang meningkatkan hasil tetapi menempatkan frekuensi kata melalui fungsi sigmoid skala memberikan hasil terbaik, karena menggunakan frekuensi kata secara linier memberi mereka lebih penting daripada yang mereka tanggung.