Saya bertanya-tanya bagaimana cara memberi label (tag) kalimat / paragraf / dokumen dengan doc2vec di gensim - dari sudut pandang praktis.
Apakah Anda perlu memiliki setiap kalimat / paragraf / dokumen dengan label uniknya sendiri (mis. "Sent_123")? Ini sepertinya berguna jika Anda ingin mengatakan "kata atau kalimat apa yang paling mirip dengan satu kalimat spesifik berlabel" Sent_123 ".
Bisakah Anda membuat label diulangi berdasarkan konten? Misalnya jika setiap kalimat / paragraf / dokumen adalah tentang item produk tertentu (dan ada beberapa kalimat / paragraf / dokumen untuk item produk tertentu) dapatkah Anda memberi label pada kalimat berdasarkan item tersebut dan kemudian menghitung kesamaan antara kata atau kalimat dan label ini (yang saya kira akan seperti rata-rata semua kalimat yang ada hubungannya dengan item produk)?