Berapa banyak data pelatihan yang dibutuhkan word2vec?

Saya ingin membandingkan perbedaan antara kata yang sama yang disebutkan dalam berbagai sumber. Artinya, bagaimana penulis berbeda dalam penggunaan kata-kata yang tidak jelas, seperti "demokrasi".

Rencana singkat adalah

Ambil buku-buku yang menyebutkan istilah "demokrasi" sebagai teks biasa
Di setiap buku, ganti democracydengandemocracy_%AuthorName%
Latih word2vecmodel di buku-buku ini
Hitung jarak antara democracy_AuthorA,, democracy_AuthorBdan sebutan lain tentang "demokrasi"

Jadi "demokrasi" setiap penulis mendapatkan vektornya sendiri, yang digunakan untuk perbandingan.

Tetapi tampaknya word2vecmembutuhkan lebih dari beberapa buku (setiap kata yang dilabel ulang hanya muncul dalam subset buku) untuk melatih vektor yang dapat diandalkan. The halaman resmi merekomendasikan dataset termasuk miliaran kata-kata.

Saya hanya ingin bertanya seberapa besar seharusnya bagian dari satu buku penulis untuk membuat kesimpulan seperti itu word2vecatau alat alternatif, jika tersedia?

text-mining word-embeddings

— Anton Tarasenko
sumber

Apakah buku-buku yang Anda gunakan hanya dengan topik demokrasi, jika tidak, mungkin metrik jarak Anda tidak dibanjiri oleh perbedaan yang lebih besar antara isi buku? Ini adalah efek samping dari masalah Anda berada di ruang dimensi yang sangat tinggi dan disentuh oleh tangan kutukan dimensi. Mungkin hanya mengambil sedikit teks di sekitar kata yang menarik akan membantu, tetapi masih ada masalah dengan dimensi yang signifikan.

— image_doctor

Ya, itulah intinya. ini dia metafora yang dipikirkan dengan buruk. Bayangkan bab-bab buku diwakili oleh warna. Dan sebuah buku secara keseluruhan direpresentasikan sebagai campuran dari semua warna bab. Sebuah buku tentang demokrasi di Eropa Barat kemungkinan akan berakhir dengan rona kemerahan secara keseluruhan sebagai jumlah dari bab-babnya. Jika kita mewakili pariwisata dengan warna biru, sebuah buku tentang Pariwisata di Kuba, dengan satu bab tunggal tentang demokrasi dan pengaruhnya terhadap pembangunan ekonomi, akan memiliki rona biru yang kuat. Jadi kedua buku itu akan tampak sangat berbeda jika dilihat secara keseluruhan.

— image_doctor

Itulah cara yang lebih mudah untuk mengatakan apa yang akan diungkapkan oleh seorang ilmuwan data karena vektor-vektor untuk kedua buku akan jauh terpisah dalam ruang fitur dan karenanya akan tampak sangat berbeda. Sangat sulit untuk mengukur terlebih dahulu berapa banyak contoh yang Anda perlukan tanpa bermain-main dengan data, tetapi bahasa itu halus dan berlapis sehingga Anda mungkin ingin sebanyak yang Anda bisa .... dan mungkin lebih. Pada akhirnya Anda tidak akan tahu sampai Anda mencobanya. Ini bukan jawaban yang konkret, tetapi kecuali jika seseorang memiliki pengalaman langsung melakukan hal serupa, itu mungkin yang terbaik yang akan Anda dapatkan.

— image_doctor

word2vec sudah hanya menggunakan "wilayah kecil teks di sekitar kata yang menarik." The windowparameter set berapa banyak kata-kata dalam konteks yang digunakan untuk melatih model untuk kata Anda w

— jamesmf

@politicalscientist Saya belum menyelesaikan proyek ini.

— Anton Tarasenko

Kedengarannya seperti doc2vec (atau paragraf / vektor konteks) mungkin cocok untuk masalah ini.

Singkatnya, selain vektor kata, Anda menambahkan "vektor konteks" (dalam kasus Anda, embedding untuk penulis) yang digunakan untuk memprediksi kata pusat atau konteks.

Ini berarti bahwa Anda akan mendapat manfaat dari semua data tentang "demokrasi" tetapi juga mengekstrak penyematan untuk penulis itu, yang digabungkan akan memungkinkan Anda untuk menganalisis bias dari setiap penulis dengan data terbatas tentang masing-masing penulis.

Anda dapat menggunakan implementasi gensim . Dokumen mencakup tautan ke makalah sumber.

— setengah
sumber