1- Jumlah fitur: Dalam hal model jaringan saraf, ini mewakili jumlah neuron pada lapisan proyeksi (tersembunyi). Karena lapisan proyeksi dibangun di atas hipotesis distribusi, vektor numerik untuk setiap kata menandakan hubungannya dengan kata-kata konteksnya.
Fitur-fitur ini dipelajari oleh jaringan saraf karena ini adalah metode yang tidak diawasi. Setiap vektor memiliki beberapa set karakteristik semantik. Sebagai contoh, mari kita ambil contoh klasik, V(King) -V(man) + V(Women) ~ V(Queen)
dan setiap kata diwakili oleh vektor 300-d. V(King)
akan memiliki karakteristik semantik Kerajaan, kerajaan, kejantanan, manusia dalam vektor dalam urutan tertentu. V(man)
akan memiliki maskulinitas, manusia, bekerja dalam urutan tertentu. Jadi ketika V(King)-V(Man)
dilakukan, maskulinitas, karakteristik manusia akan dibatalkan dan ketika ditambahkan dengan V(Women)
yang memiliki feminitas, karakteristik manusia akan ditambahkan sehingga menghasilkan vektor yang mirip denganV(Queen)
. Yang menarik adalah, karakteristik ini dikodekan dalam vektor dalam urutan tertentu sehingga perhitungan numerik seperti penjumlahan, pengurangan bekerja dengan sempurna. Hal ini disebabkan sifat metode belajar tanpa pengawasan dalam jaringan saraf.
2- Ada dua algoritma aproksimasi. Hierarchical softmax
dan negative sampling
. Ketika parameter sampel diberikan, dibutuhkan pengambilan sampel negatif. Dalam hal softmax hirarkis, untuk setiap vektor kata, kata konteksnya diberi output positif dan semua kata lain dalam kosakata diberi output negatif. Masalah kompleksitas waktu diselesaikan dengan pengambilan sampel negatif. Seperti dalam pengambilan sampel negatif, daripada seluruh kosakata, hanya bagian sampel dari kosakata yang diberikan output negatif dan vektor dilatih yang jauh lebih cepat daripada metode sebelumnya.