Pertanyaan yang diberi tag «tf-idf»

2
Bagaimana metode .similaritas dalam SpaCy dihitung?
Tidak yakin apakah ini situs tumpukan yang tepat, tetapi begini saja. Bagaimana cara kerja metode .similiarity? Wah spanya bagus! Model tfidf-nya bisa lebih mudah, tetapi w2v dengan hanya satu baris kode ?! Dalam 10 baris tutorialnya di spaCy andrazhribernik, tunjukkan pada kami metode .similaritas yang dapat dijalankan pada token, sents, …

1
Mengapa Lucene IDF memiliki +1 yang tampaknya tambahan?
Dari dokumen Lucene IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Dalam referensi lain (mis. Wikipedia ), IDF biasanya dihitung sebagai atau untuk menghindari menyelam oleh 0.log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)catatan(numDocsdocFreq + 1)catatan⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Saya juga menyadari Lucene menggunakan daripada untuk menghitung TF, tetapi pemahaman saya adalah bahwa ini hanya transformasi yang disukai, mungkin untuk menghindari .x--√x\sqrt{x}catatan( x …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.