Jumlah zaman dalam implementasi Gensim Word2Vec


14

Ada iterparameter dalam gensimimplementasi Word2Vec

class gensim.models.word2vec.Word2Vec (kalimat = Tidak ada, ukuran = 100, alpha = 0,025, window = 5, min_count = 5, max_vocab_size = Tidak ada, sampel = 0, seed = 1, pekerja = 1, min_alpha = 0,0001, sg = 1, hs = 1, negatif = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Tidak ada, sort_vocab = 1)

yang menentukan jumlah zaman, yaitu:

iter = jumlah iterasi (zaman) di atas corpus.

Apakah ada yang tahu apakah itu membantu dalam meningkatkan model di atas corpus?

Apakah ada alasan mengapa iterdefaultnya adalah 1? Apakah tidak ada banyak efek dalam meningkatkan no. zaman?

Apakah ada evaluasi ilmiah / empiris tentang bagaimana mengatur no. zaman?

Tidak seperti tugas klasifikasi / regresi, metode pencarian kisi tidak akan benar-benar berfungsi karena vektor dihasilkan dengan cara yang tidak diawasi dan fungsi objektifnya hanya dengan softmax hierarkis atau pengambilan sampel negatif.

Apakah ada mekanisme penghentian dini untuk mengurangi no. zaman sekali vektor menyatu? Dan bisakah softmax hierarkis atau objektif pengambilan sampel negatif bertemu?

Jawaban:


5

Meningkatkan jumlah zaman biasanya menguntungkan kualitas representasi kata. Dalam eksperimen yang telah saya lakukan di mana tujuannya adalah menggunakan embeddings kata sebagai fitur untuk klasifikasi teks pengaturan zaman ke 15 bukannya 5, meningkatkan kinerja.


2

Saya melihat di sini , dan menemukan bahwa nilai default berubah dari 1 menjadi 5. Rupanya penulis percaya bahwa lebih banyak zaman akan meningkatkan hasil .

Saya belum tahu dari pengalaman.


2

Saya melatih model w2v saya di google news 300 untuk [2, 10, 100] zaman dan yang terbaik adalah pada 10 zaman. Setelah semua penantian itu, saya terkejut bahwa 100 zaman itu buruk.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

Meningkatkan hitungan iter (jumlah zaman) secara dramatis meningkatkan waktu pelatihan. Word2Vec memberikan hasil yang berkualitas hanya jika Anda memberi makan sejumlah besar dokumen, oleh karena itu pengulangan bahkan dua kali pada mereka tidak masuk akal meskipun sebenarnya membuat hasil embeddings kata lebih akurat.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.