Saya ingin membandingkan perbedaan antara kata yang sama yang disebutkan dalam berbagai sumber. Artinya, bagaimana penulis berbeda dalam penggunaan kata-kata yang tidak jelas, seperti "demokrasi".
Rencana singkat adalah
- Ambil buku-buku yang menyebutkan istilah "demokrasi" sebagai teks biasa
- Di setiap buku, ganti
democracydengandemocracy_%AuthorName% - Latih
word2vecmodel di buku-buku ini - Hitung jarak antara
democracy_AuthorA,,democracy_AuthorBdan sebutan lain tentang "demokrasi"
Jadi "demokrasi" setiap penulis mendapatkan vektornya sendiri, yang digunakan untuk perbandingan.
Tetapi tampaknya word2vecmembutuhkan lebih dari beberapa buku (setiap kata yang dilabel ulang hanya muncul dalam subset buku) untuk melatih vektor yang dapat diandalkan. The halaman resmi merekomendasikan dataset termasuk miliaran kata-kata.
Saya hanya ingin bertanya seberapa besar seharusnya bagian dari satu buku penulis untuk membuat kesimpulan seperti itu word2vecatau alat alternatif, jika tersedia?
windowparameter set berapa banyak kata-kata dalam konteks yang digunakan untuk melatih model untuk kata Anda w