Saya ingin membandingkan perbedaan antara kata yang sama yang disebutkan dalam berbagai sumber. Artinya, bagaimana penulis berbeda dalam penggunaan kata-kata yang tidak jelas, seperti "demokrasi".
Rencana singkat adalah
- Ambil buku-buku yang menyebutkan istilah "demokrasi" sebagai teks biasa
- Di setiap buku, ganti
democracy
dengandemocracy_%AuthorName%
- Latih
word2vec
model di buku-buku ini - Hitung jarak antara
democracy_AuthorA
,,democracy_AuthorB
dan sebutan lain tentang "demokrasi"
Jadi "demokrasi" setiap penulis mendapatkan vektornya sendiri, yang digunakan untuk perbandingan.
Tetapi tampaknya word2vec
membutuhkan lebih dari beberapa buku (setiap kata yang dilabel ulang hanya muncul dalam subset buku) untuk melatih vektor yang dapat diandalkan. The halaman resmi merekomendasikan dataset termasuk miliaran kata-kata.
Saya hanya ingin bertanya seberapa besar seharusnya bagian dari satu buku penulis untuk membuat kesimpulan seperti itu word2vec
atau alat alternatif, jika tersedia?
window
parameter set berapa banyak kata-kata dalam konteks yang digunakan untuk melatih model untuk kata Anda w