Tidak yakin apakah ini situs tumpukan yang tepat, tetapi begini saja.
Bagaimana cara kerja metode .similiarity?
Wah spanya bagus! Model tfidf-nya bisa lebih mudah, tetapi w2v dengan hanya satu baris kode ?!
Dalam 10 baris tutorialnya di spaCy andrazhribernik, tunjukkan pada kami metode .similaritas yang dapat dijalankan pada token, sents, word chunks, dan docs.
Setelah nlp = spacy.load('en')
dan doc = nlp(raw_text)
kita bisa melakukan .similaritas kueri antara token dan potongan. Namun, apa yang sedang dihitung di balik layar dalam .similarity
metode ini ?
Spacy sudah memiliki sangat sederhana .vector
, yang menghitung vektor w2v sebagai dilatih dari model sarung tangan (bagaimana keren akan sebuah .tfidf
atau .fasttext
metode menjadi?).
Apakah model hanya menghitung kesamaan cosinus antara dua w2v, vektor, atau membandingkan beberapa matriks lain? Spesifikasinya tidak jelas dalam dokumentasi ; bantuan dihargai!