Pertanyaan yang diberi tag «word2vec»

Word2vec adalah jaringan saraf yang mewakili kata-kata sebagai vektor dalam ruang dimensi tinggi.

5
LDA vs word2vec
Saya mencoba memahami apa persamaan antara Alokasi Dirichlet Laten dan word2vec untuk menghitung kesamaan kata. Seperti yang saya pahami, LDA memetakan kata ke vektor probabilitas dari topik laten , sementara word2vec memetakannya ke vektor bilangan real (terkait dengan penguraian nilai singular dari informasi timbal balik yang saling berhadapan, lihat O. …

3
Terapkan embeddings kata ke seluruh dokumen, untuk mendapatkan vektor fitur
Bagaimana cara saya menggunakan kata embedding untuk memetakan dokumen ke vektor fitur, cocok untuk digunakan dengan pembelajaran yang diawasi? Sebuah embedding kata memetakan setiap kata ke vektor , dimana adalah beberapa nomor yang tidak terlalu besar (misalnya, 500). Kata embeddings yang populer termasuk word2vec dan Glove .wwwv∈Rdv∈Rdv \in \mathbb{R}^dddd Saya …


3
R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …



4
Menafsirkan kesamaan cosinus negatif
Pertanyaan saya mungkin konyol. Jadi saya akan minta maaf sebelumnya. Saya mencoba menggunakan model GLOVE yang sudah dilatih oleh Stanford NLP group ( tautan ). Namun, saya perhatikan bahwa hasil kesamaan saya menunjukkan beberapa angka negatif. Itu segera mendorong saya untuk melihat file data kata-vektor. Rupanya, nilai-nilai dalam kata vektor …

2
Bagaimana metode .similaritas dalam SpaCy dihitung?
Tidak yakin apakah ini situs tumpukan yang tepat, tetapi begini saja. Bagaimana cara kerja metode .similiarity? Wah spanya bagus! Model tfidf-nya bisa lebih mudah, tetapi w2v dengan hanya satu baris kode ?! Dalam 10 baris tutorialnya di spaCy andrazhribernik, tunjukkan pada kami metode .similaritas yang dapat dijalankan pada token, sents, …


3
Bagaimana model skip-gram Word2Vec menghasilkan vektor output?
Saya mengalami masalah dalam memahami model skip-gram dari algoritma Word2Vec. Dalam kata-kata kontinyu mudah untuk melihat bagaimana kata konteks dapat "cocok" di Neural Network, karena Anda pada dasarnya meratakannya setelah mengalikan masing-masing representasi pengodean satu-panas dengan matriks input W. Namun, dalam kasus lompatan-gram, Anda hanya mendapatkan vektor kata input dengan …

1
Algoritma penyematan kata dalam hal kinerja
Saya mencoba menanamkan sekitar 60 juta frasa ke dalam ruang vektor , lalu menghitung persamaan cosinus di antara mereka. Saya telah menggunakan sklearn's CountVectorizerdengan fungsi tokenizer yang dibuat khusus yang menghasilkan unigrams dan bigrams. Ternyata untuk mendapatkan representasi yang bermakna, saya harus mengizinkan sejumlah besar kolom, linier dalam jumlah baris. …

2
Bagaimana cara menentukan parameter untuk t-SNE untuk mengurangi dimensi?
Saya sangat baru menggunakan kata embeddings. Saya ingin memvisualisasikan bagaimana dokumen mencari setelah belajar. Saya membaca bahwa t-SNE adalah pendekatan untuk melakukannya. Saya memiliki 100 ribu dokumen dengan 250 dimensi sebagai ukuran penyematan. Ada beberapa paket yang tersedia juga. Namun, untuk t-SNE, saya tidak tahu berapa banyak iterasi atau nilai …

2
Menangani kata-kata yang tidak dikenal dalam tugas pemodelan bahasa menggunakan LSTM
Untuk tugas pemrosesan bahasa alami (NLP) seseorang sering menggunakan vektor word2vec sebagai embedding kata-kata. Namun, mungkin ada banyak kata yang tidak dikenal yang tidak ditangkap oleh vektor word2vec hanya karena kata-kata ini tidak cukup sering terlihat dalam data pelatihan (banyak implementasi menggunakan jumlah minimum sebelum menambahkan kata ke dalam kosakata). …

1
Turunan dari cross entropy loss di word2vec
Saya mencoba untuk bekerja dengan cara saya melalui set masalah pertama dari materi kursus stanford kelas cs224d online dan saya mengalami beberapa masalah dengan masalah 3A: Ketika menggunakan model skip gram word2vec dengan fungsi prediksi softmax dan fungsi kehilangan entropi silang, kami ingin menghitung gradien sehubungan dengan vektor kata yang …

1
Gradien untuk skipgram word2vec
Saya akan membahas masalah-masalah dalam tugas penugasan tertulis kelas pembelajaran mendalam di Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln Saya mencoba memahami jawaban untuk 3a di mana mereka mencari turunan ke vektor untuk kata pusat. Asumsikan Anda diberikan vektor kata yang diprediksi sesuai dengan kata tengah c untuk skipgram, dan prediksi kata dibuat dengan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.