Dari sudut pandang praktis ...
LDA dimulai dengan masukan kata-kata yang mempertimbangkan kata-kata apa yang muncul bersama dalam dokumen, tetapi tidak memperhatikan konteks langsung kata-kata. Ini berarti kata-kata dapat muncul di mana saja dalam dokumen dan dalam urutan apa pun, yang menghapus tingkat informasi tertentu. Sebaliknya word2vec adalah tentang konteks di mana sebuah kata digunakan - meskipun mungkin urutannya tidak tepat.
"Topik" LDA adalah konstruksi matematis dan Anda tidak perlu bingung dengan topik manusia yang sebenarnya. Anda dapat berakhir dengan topik yang tidak memiliki interpretasi manusia - mereka lebih seperti artefak dari proses daripada topik aktual - dan Anda dapat berakhir dengan topik di berbagai tingkat abstraksi, termasuk topik yang pada dasarnya mencakup topik manusia yang sama. Ini seperti membaca daun teh.
Saya menemukan LDA berguna untuk mengeksplorasi data, tetapi tidak begitu berguna untuk memberikan solusi, tetapi jarak tempuh Anda mungkin beragam.
Word2vec tidak membuat topik sama sekali. Ini memproyeksikan kata-kata ke ruang dimensi tinggi berdasarkan penggunaan yang serupa, sehingga dapat memiliki kejutan sendiri dalam hal kata-kata yang Anda anggap berbeda - atau bahkan berlawanan - mungkin berdekatan satu sama lain dalam ruang.
Anda dapat menggunakan salah satu untuk menentukan apakah kata-kata "mirip". Dengan LDA: apakah kata-kata memiliki bobot yang serupa dalam topik yang sama. Dengan word2vec: apakah mereka menutup (dengan ukuran tertentu) di ruang embedding.
Anda dapat menggunakan salah satu untuk menentukan apakah dokumen serupa. Dengan LDA, Anda akan mencari campuran topik yang sama, dan dengan word2vec Anda akan melakukan sesuatu seperti menjumlahkan vektor kata-kata dokumen. ("Dokumen" bisa berupa kalimat, paragraf, halaman, atau seluruh dokumen.) Doc2vec adalah versi modifikasi dari word2vec yang memungkinkan perbandingan langsung dokumen.
Sementara LDA membuang beberapa informasi kontekstual dengan pendekatan kata-kata, ia memang memiliki topik (atau "topik"), yang tidak dimiliki word2vec. Jadi sangat mudah untuk menggunakan doc2vec untuk mengatakan, "Tunjukkan pada saya dokumen yang mirip dengan yang ini", sementara dengan LDA itu mudah untuk mengatakan, "Tunjukkan pada saya dokumen di mana topik A menonjol." (Sekali lagi, mengetahui bahwa "topik A" muncul dari proses matematis pada dokumen Anda dan Anda kemudian mencari tahu topik manusia apa yang paling sesuai dengannya.)