Untuk tugas pemrosesan bahasa alami (NLP) seseorang sering menggunakan vektor word2vec sebagai embedding kata-kata. Namun, mungkin ada banyak kata yang tidak dikenal yang tidak ditangkap oleh vektor word2vec hanya karena kata-kata ini tidak cukup sering terlihat dalam data pelatihan (banyak implementasi menggunakan jumlah minimum sebelum menambahkan kata ke dalam kosakata). Ini mungkin terutama dengan teks dari misalnya Twitter, di mana kata-kata sering salah eja.
Bagaimana seharusnya kata-kata yang tidak diketahui itu ditangani ketika memodelkan tugas NLP seperti prediksi sentimen menggunakan jaringan jangka pendek (LSTM) panjang? Saya melihat dua opsi:
- Menambahkan token 'kata tidak dikenal' ke kamus word2vec.
- Menghapus kata-kata yang tidak dikenal ini sehingga LSTM bahkan tidak tahu kata itu dalam kalimat.
Apa cara yang disukai untuk menangani kata-kata ini?