Saya akan mengatakan bahwa algoritma word2vec didasarkan pada keduanya.
Ketika orang berkata distributional representation
, mereka biasanya berarti aspek linguistik: makna adalah konteks, ketahui kata dari perusahaannya dan kutipan terkenal lainnya.
Tetapi ketika orang mengatakan distributed representation
, sebagian besar tidak ada hubungannya dengan linguistik. Ini lebih tentang aspek ilmu komputer. Jika saya memahami Mikolov dan lainnya dengan benar, kata
distributed
dalam makalah mereka berarti bahwa setiap komponen tunggal dari representasi vektor tidak memiliki makna sendiri. Fitur yang dapat ditafsirkan (misalnya, konteks kata dalam kasus word2vec) disembunyikan dan di distributed
antara komponen vektor yang tidak dapat ditafsirkan: setiap komponen bertanggung jawab atas beberapa fitur yang dapat ditafsirkan, dan setiap fitur yang dapat ditafsirkan terikat ke beberapa komponen.
Jadi, word2vec (dan doc2vec) menggunakan representasi terdistribusi secara teknis, sebagai cara untuk mewakili semantik leksikal. Dan pada saat yang sama secara konseptual didasarkan pada hipotesis distribusi: itu hanya berfungsi karena hipotesis distribusi benar (makna kata-kata memang berkorelasi dengan konteks tipikal mereka).
Tapi tentu saja sering istilah distributed
dan distributional
digunakan secara bergantian, meningkatkan kesalahpahaman :)