Pertanyaan yang diberi tag «language-models»

3
Di Kneser-Ney smoothing, bagaimana kata-kata yang tidak terlihat ditangani?
Dari apa yang saya lihat, formula smoothing Kneser-Ney (dalam urutan kedua) dalam beberapa hal diberikan sebagai P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} dengan faktor normalisasi diberikan sebagaiλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} dan …

1
Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?
Salah satu cara untuk menghasilkan embeddings kata adalah sebagai berikut ( mirror ): Dapatkan kopral, misalnya "Saya menikmati terbang. Saya suka NLP. Saya suka belajar dalam-dalam." Bangun kata cooccurrence matrix dari itu: Lakukan SVD pada , dan pertahankan kolom pertama U.XXXkkk Setiap baris submatrix akan menjadi kata embedding dari kata …

2
Pertanyaan tentang Continuous Bag of Words
Saya mengalami kesulitan memahami kalimat ini: Arsitektur yang diusulkan pertama mirip dengan NNLM feedforward, di mana lapisan tersembunyi non-linear dihapus dan lapisan proyeksi dibagi untuk semua kata (bukan hanya matriks proyeksi); dengan demikian, semua kata diproyeksikan ke posisi yang sama (vektornya dirata-ratakan). Apa lapisan proyeksi vs matriks proyeksi? Apa artinya …

3
Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks
Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

1
Pemodelan bahasa: mengapa menambahkan hingga 1 begitu penting?
Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.