Pertanyaan yang diberi tag «word-embeddings»

Penyematan kata adalah nama kolektif untuk sekumpulan pemodelan bahasa dan teknik pembelajaran fitur di NLP di mana kata-kata dipetakan ke vektor bilangan real dalam ruang berdimensi rendah, relatif terhadap ukuran kosa kata.

2
Apa yang dimaksud dengan lapisan embedding dalam jaringan saraf?
Di banyak perpustakaan jaringan saraf, ada 'lapisan embedding', seperti di Keras atau Lasagne . Saya tidak yakin saya mengerti fungsinya, meskipun membaca dokumentasi. Misalnya, dalam dokumentasi Keras tertulis: Ubah bilangan bulat positif (indeks) menjadi vektor padat ukuran tetap, misalnya. [[4], [20]] -> [[0,25, 0,1], [0,6, -0,2]] Bisakah orang yang berpengetahuan …

2
Bagaimana cara kerja lapisan Keras 'Embedding'?
Perlu memahami cara kerja lapisan 'Embedding' di perpustakaan Keras. Saya menjalankan kode berikut dengan Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) yang memberikan output berikut input_array = [[4 …

3
Terapkan embeddings kata ke seluruh dokumen, untuk mendapatkan vektor fitur
Bagaimana cara saya menggunakan kata embedding untuk memetakan dokumen ke vektor fitur, cocok untuk digunakan dengan pembelajaran yang diawasi? Sebuah embedding kata memetakan setiap kata ke vektor , dimana adalah beberapa nomor yang tidak terlalu besar (misalnya, 500). Kata embeddings yang populer termasuk word2vec dan Glove .wwwv∈Rdv∈Rdv \in \mathbb{R}^dddd Saya …


3
R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …

1
Apakah kinerja canggih menggunakan vektor paragraf untuk analisis sentimen telah direplikasi?
Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan perluasan model word2vec. Makalah ini melaporkan kinerja canggih pada analisis sentimen …





3
Bagaimana model skip-gram Word2Vec menghasilkan vektor output?
Saya mengalami masalah dalam memahami model skip-gram dari algoritma Word2Vec. Dalam kata-kata kontinyu mudah untuk melihat bagaimana kata konteks dapat "cocok" di Neural Network, karena Anda pada dasarnya meratakannya setelah mengalikan masing-masing representasi pengodean satu-panas dengan matriks input W. Namun, dalam kasus lompatan-gram, Anda hanya mendapatkan vektor kata input dengan …

1
Algoritma penyematan kata dalam hal kinerja
Saya mencoba menanamkan sekitar 60 juta frasa ke dalam ruang vektor , lalu menghitung persamaan cosinus di antara mereka. Saya telah menggunakan sklearn's CountVectorizerdengan fungsi tokenizer yang dibuat khusus yang menghasilkan unigrams dan bigrams. Ternyata untuk mendapatkan representasi yang bermakna, saya harus mengizinkan sejumlah besar kolom, linier dalam jumlah baris. …

2
Bagaimana cara menentukan parameter untuk t-SNE untuk mengurangi dimensi?
Saya sangat baru menggunakan kata embeddings. Saya ingin memvisualisasikan bagaimana dokumen mencari setelah belajar. Saya membaca bahwa t-SNE adalah pendekatan untuk melakukannya. Saya memiliki 100 ribu dokumen dengan 250 dimensi sebagai ukuran penyematan. Ada beberapa paket yang tersedia juga. Namun, untuk t-SNE, saya tidak tahu berapa banyak iterasi atau nilai …

1
Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?
Salah satu cara untuk menghasilkan embeddings kata adalah sebagai berikut ( mirror ): Dapatkan kopral, misalnya "Saya menikmati terbang. Saya suka NLP. Saya suka belajar dalam-dalam." Bangun kata cooccurrence matrix dari itu: Lakukan SVD pada , dan pertahankan kolom pertama U.XXXkkk Setiap baris submatrix akan menjadi kata embedding dari kata …

2
Pertanyaan tentang Continuous Bag of Words
Saya mengalami kesulitan memahami kalimat ini: Arsitektur yang diusulkan pertama mirip dengan NNLM feedforward, di mana lapisan tersembunyi non-linear dihapus dan lapisan proyeksi dibagi untuk semua kata (bukan hanya matriks proyeksi); dengan demikian, semua kata diproyeksikan ke posisi yang sama (vektornya dirata-ratakan). Apa lapisan proyeksi vs matriks proyeksi? Apa artinya …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.