Mengapa softmax hierarkis lebih baik untuk kata-kata yang jarang, sedangkan pengambilan sampel negatif lebih baik untuk kata-kata yang sering?

12

Saya bertanya-tanya mengapa softmax hierarkis lebih baik untuk kata-kata yang jarang, sedangkan pengambilan sampel negatif lebih baik untuk kata-kata yang sering, dalam CBOW dan skip-gram model word2vec. Saya telah membaca klaim di https://code.google.com/p/word2vec/ .

— Franck Dernoncourt
sumber

10

Saya bukan ahli dalam word2vec, tetapi setelah membaca Rong, X. (2014). word2vec Parameter Pembelajaran Dijelaskan dan dari pengalaman NN saya sendiri, saya menyederhanakan alasan untuk ini:

$O(log(N))$ $O(N)$
Pengambilan sampel negatif adalah cara untuk mengambil sampel data pelatihan, mirip dengan penurunan gradien stokastik, tetapi kuncinya adalah Anda mencari contoh pelatihan negatif. Secara intuitif, itu melatih berdasarkan tempat pengambilan sampel yang mungkin diharapkan sebuah kata, tetapi tidak menemukan satu, yang lebih cepat daripada melatih seluruh korpus setiap iterasi dan masuk akal untuk kata-kata umum.

Kedua metode ini tampaknya tidak eksklusif, secara teoritis, tetapi bagaimanapun juga itulah sebabnya mereka lebih baik untuk kata-kata yang sering dan jarang.

— Andrew Charneski
sumber

1

Pemahaman saya adalah ini karena pengkodean Huffman digunakan ketika membangun hirarki kategori.

Softmax hierarkis menggunakan pohon node sigmoid alih-alih satu softmax besar, pengkodean Huffman memastikan bahwa distribusi titik data yang dimiliki setiap sisi dari setiap simpul sigmoid seimbang. Oleh karena itu membantu menghilangkan preferensi terhadap kategori yang sering dibandingkan dengan menggunakan satu softmax besar dan pengambilan sampel negatif.

— dontloo
sumber

0

Softmax hierarkis membangun pohon di atas seluruh kosakata dan simpul daun yang mewakili kata-kata langka pasti akan mewarisi representasi vektor leluhur mereka di pohon, yang dapat dipengaruhi oleh kata-kata lain yang sering di corpus. Ini akan menguntungkan pelatihan tambahan untuk korpus baru.

Pengambilan sampel negatif dikembangkan berdasarkan estimasi kontras kebisingan dan sampel acak kata-kata tidak dalam konteks untuk membedakan data yang diamati dari kebisingan acak yang dihasilkan secara artifisial.

— Amey Yadav
sumber