Statistik dan Big Data language-models

3

Di Kneser-Ney smoothing, bagaimana kata-kata yang tidak terlihat ditangani?

Dari apa yang saya lihat, formula smoothing Kneser-Ney (dalam urutan kedua) dalam beberapa hal diberikan sebagai P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} dengan faktor normalisasi diberikan sebagaiλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} dan …

15 machine-learning natural-language naive-bayes smoothing language-models

1

Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?

Salah satu cara untuk menghasilkan embeddings kata adalah sebagai berikut ( mirror ): Dapatkan kopral, misalnya "Saya menikmati terbang. Saya suka NLP. Saya suka belajar dalam-dalam." Bangun kata cooccurrence matrix dari itu: Lakukan SVD pada , dan pertahankan kolom pertama U.XXXkkk Setiap baris submatrix akan menjadi kata embedding dari kata …

11 natural-language svd mutual-information word-embeddings language-models

2

Pertanyaan tentang Continuous Bag of Words

Saya mengalami kesulitan memahami kalimat ini: Arsitektur yang diusulkan pertama mirip dengan NNLM feedforward, di mana lapisan tersembunyi non-linear dihapus dan lapisan proyeksi dibagi untuk semua kata (bukan hanya matriks proyeksi); dengan demikian, semua kata diproyeksikan ke posisi yang sama (vektornya dirata-ratakan). Apa lapisan proyeksi vs matriks proyeksi? Apa artinya …

11 machine-learning neural-networks natural-language word-embeddings language-models

3

Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks

Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

10 machine-learning data-mining text-mining natural-language language-models

1

Pemodelan bahasa: mengapa menambahkan hingga 1 begitu penting?

Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat …

8 distributions modeling natural-language language-models

Pertanyaan yang diberi tag «language-models»