Karena Anda menggunakan gensim, Anda mungkin harus menggunakan implementasi doc2vec itu. doc2vec adalah perpanjangan dari word2vec ke tingkat frase-, kalimat-, dan dokumen. Ini ekstensi yang cukup sederhana, dijelaskan di sini
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim bagus karena intuitif, cepat, dan fleksibel. Yang hebat adalah Anda dapat mengambil embeddings kata yang telah dilatih sebelumnya dari halaman resmi word2vec dan lapisan syn0 model Doc2Vec gensim terbuka sehingga Anda dapat menyemai kata embeddings dengan vektor berkualitas tinggi ini!
GoogleNews-vektor-negative300.bin.gz (seperti yang ditautkan di Google Code )
Saya pikir gensim jelas merupakan alat termudah (dan sejauh ini bagi saya, yang terbaik) untuk menyematkan kalimat dalam ruang vektor.
Terdapat teknik kalimat-ke-vektor selain yang diusulkan dalam makalah Le & Mikolov di atas. Socher dan Manning dari Stanford jelas merupakan dua peneliti paling terkenal yang bekerja di bidang ini. Karya mereka didasarkan pada prinsip komposisi - semantik kalimat berasal dari:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Mereka telah mengusulkan beberapa model seperti itu (menjadi semakin kompleks) untuk bagaimana menggunakan komposisionalitas untuk membangun representasi tingkat kalimat.
2011 - autoencoder rekursif terbuka (sangat relatif sederhana. Mulai di sini jika tertarik)
2012 - jaringan saraf matriks-vektor
2013 - jaringan tensor saraf
2015 - Pohon LSTM
makalahnya semua tersedia di socher.org. Beberapa model ini tersedia, tetapi saya tetap merekomendasikan doc2vec gensim. Pertama, URAE 2011 tidak terlalu kuat. Selain itu, ia dilengkapi dengan bobot yang sesuai untuk parafrase data news-y. Kode yang dia berikan tidak memungkinkan Anda melatih ulang jaringan. Anda juga tidak dapat menukar vektor kata yang berbeda, jadi Anda terjebak dengan embeddings pra-word2vec 2011 dari Turian. Vektor-vektor ini tentu saja tidak berada pada level word2vec atau GloVe.
Belum bekerja dengan Tree LSTM, tapi sepertinya sangat menjanjikan!
tl; dr Ya, gunakan doc2vec gensim. Tetapi metode lain memang ada!