Word2Vec vs Sentence2Vec vs Doc2Vec

Baru-baru ini saya menemukan istilah Word2Vec , Sentence2Vec dan Doc2Vec dan agak bingung karena saya baru mengenal semantik vektor. Dapatkah seseorang tolong menjelaskan perbedaan dalam metode ini dengan kata-kata sederhana. Apa tugas yang paling cocok untuk setiap metode?

— Smith
sumber

Nah nama-nama yang cukup lurus ke depan dan harus memberi Anda gambaran yang jelas tentang representasi vektor.

Algoritma Word2Vec membangun representasi kata-kata semantik yang terdistribusi. Ada dua pendekatan utama untuk pelatihan, Bag of Words Terdistribusi dan The skip gram model. Satu melibatkan memprediksi kata konteks menggunakan kata tengah, sementara yang lain melibatkan memprediksi kata menggunakan kata konteks. Anda dapat membacanya di banyak detail dalam Mikolov ini kertas .

Gagasan yang sama dapat diperluas ke kalimat dan melengkapi dokumen di mana alih-alih mempelajari representasi fitur untuk kata-kata, Anda mempelajarinya untuk kalimat atau dokumen. Namun, untuk mendapatkan gambaran umum tentang SentenceToVec, anggap itu sebagai rata-rata matematika dari representasi vektor kata dari semua kata dalam kalimat. Anda bisa mendapatkan perkiraan yang sangat baik hanya dengan rata-rata dan tanpa melatih SentenceToVec, tetapi tentu saja, ia memiliki keterbatasan.

Doc2Vec memperluas gagasan SentenceToVec atau lebih tepatnya Word2Vec karena kalimat juga dapat dianggap sebagai dokumen. Gagasan pelatihan tetap serupa. Anda dapat membaca kertas Doc2Vec milik Mikolov untuk lebih jelasnya.

Datang ke aplikasi, itu akan tergantung pada tugas. Word2Vec secara efektif menangkap hubungan semantik antara kata-kata sehingga dapat digunakan untuk menghitung kesamaan kata atau dimasukkan sebagai fitur untuk berbagai tugas NLP seperti analisis sentimen dll. Namun kata-kata hanya dapat menangkap begitu banyak, ada kalanya Anda membutuhkan hubungan antara kalimat dan dokumen dan bukan hanya kata-kata. Misalnya, jika Anda mencoba mencari tahu, apakah dua pertanyaan stack overflow merupakan duplikat satu sama lain.

Pencarian google sederhana akan mengarahkan Anda ke sejumlah aplikasi dari algoritma ini.

— Himanshu Rai
sumber

Apa perbedaan antara rata-rata vektor kata dan menggunakan doc2vec? Apakah doc2vec menjelaskan lingkungan kata dalam kalimat saat membangun vektor (sedangkan word2vec tidak)?

— John Strood

Doc2Vec belajar vektor diinisialisasi secara acak untuk dokumen bersama dengan kata-kata, (dokumen bisa berupa kalimat). Rata-rata vektor kata tidak berfungsi dengan kapasitas yang sama karena gagal belajar dari seluruh dokumen. Baru-baru ini vektor Paragram telah sangat digunakan saat bekerja dengan kemiripan dokumen, dll.

— Himanshu Rai