Pertanyaan yang diberi tag «natural-language»

Natural Language Processing adalah seperangkat teknik dari linguistik, kecerdasan buatan, pembelajaran mesin dan statistik yang bertujuan untuk memproses dan memahami bahasa manusia.

3
Jaringan Syaraf Berulang vs Rekursif: Mana yang lebih baik untuk NLP?
Ada Jaringan Syaraf Berulang dan Jaringan Syaraf Rekursif. Keduanya biasanya dilambangkan dengan akronim yang sama: RNN. Menurut Wikipedia , NN Berulang sebenarnya adalah NN Rekursif, tapi saya tidak begitu mengerti penjelasannya. Selain itu, saya sepertinya tidak menemukan yang lebih baik (dengan contoh atau lebih) untuk Pemrosesan Bahasa Alami. Faktanya adalah, …

7
Referensi jaringan saraf (buku teks, kursus online) untuk pemula
Saya ingin belajar Neural Networks. Saya seorang Ahli Bahasa Komputasi. Saya tahu pendekatan pembelajaran mesin statistik dan dapat kode dalam Python. Saya ingin memulai dengan konsep-konsepnya, dan mengetahui satu atau dua model populer yang mungkin berguna dari perspektif Linguistik Komputasi. Saya melihat-lihat web untuk referensi dan menemukan beberapa buku dan …

5
LDA vs word2vec
Saya mencoba memahami apa persamaan antara Alokasi Dirichlet Laten dan word2vec untuk menghitung kesamaan kata. Seperti yang saya pahami, LDA memetakan kata ke vektor probabilitas dari topik laten , sementara word2vec memetakannya ke vektor bilangan real (terkait dengan penguraian nilai singular dari informasi timbal balik yang saling berhadapan, lihat O. …

3
Terapkan embeddings kata ke seluruh dokumen, untuk mendapatkan vektor fitur
Bagaimana cara saya menggunakan kata embedding untuk memetakan dokumen ke vektor fitur, cocok untuk digunakan dengan pembelajaran yang diawasi? Sebuah embedding kata memetakan setiap kata ke vektor , dimana adalah beberapa nomor yang tidak terlalu besar (misalnya, 500). Kata embeddings yang populer termasuk word2vec dan Glove .wwwv∈Rdv∈Rdv \in \mathbb{R}^dddd Saya …


3
Perbedaan intuitif antara model Markov tersembunyi dan bidang acak bersyarat
Saya mengerti bahwa HMM (Hidden Markov Models) adalah model generatif, dan CRF adalah model diskriminatif. Saya juga mengerti bagaimana CRF (Conditional Random Fields) dirancang dan digunakan. Apa yang saya tidak mengerti adalah bagaimana mereka berbeda dari HMM? Saya membaca bahwa dalam kasus HMM, kita hanya dapat memodelkan keadaan kita berikutnya …

3
R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …

2
Apakah kesamaan cosinus identik dengan jarak euclidean yang dinormalisasi-l2?
Identik makna, bahwa itu akan menghasilkan hasil yang identik untuk kesamaan peringkat antara vektor u dan satu set vektor V . Saya memiliki model ruang vektor yang memiliki ukuran jarak (jarak euclidean, kesamaan cosinus) dan teknik normalisasi (tidak ada, l1, l2) sebagai parameter. Dari pemahaman saya, hasil dari pengaturan [cosinus, …

3
Model topik dan kata metode co-kejadian
Model topik populer seperti LDA biasanya mengelompokkan kata-kata yang cenderung muncul bersama dalam topik yang sama (cluster). Apa perbedaan utama antara model topik tersebut, dan pendekatan pengelompokan sederhana berdasarkan kejadian bersama lainnya seperti PMI? (PMI singkatan dari Pointwise Mutual Information, dan digunakan untuk mengidentifikasi kata-kata yang muncul bersamaan dengan kata …

1
Apakah kinerja canggih menggunakan vektor paragraf untuk analisis sentimen telah direplikasi?
Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan perluasan model word2vec. Makalah ini melaporkan kinerja canggih pada analisis sentimen …


2
Mengapa Pemrosesan Bahasa Alami tidak termasuk dalam domain Machine Learning? [Tutup]
Seperti saat ini, pertanyaan ini tidak cocok untuk format tanya jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini dapat diperbaiki dan mungkin dibuka kembali, kunjungi pusat bantuan untuk panduan. …

3
Di Kneser-Ney smoothing, bagaimana kata-kata yang tidak terlihat ditangani?
Dari apa yang saya lihat, formula smoothing Kneser-Ney (dalam urutan kedua) dalam beberapa hal diberikan sebagai P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} dengan faktor normalisasi diberikan sebagaiλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} dan …

3
Model topik untuk dokumen pendek
Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk …

2
Apa n-gram menjadi kontraproduktif?
Saat melakukan pemrosesan bahasa alami, seseorang dapat mengambil corpus dan mengevaluasi probabilitas kata berikutnya yang muncul dalam urutan n. n biasanya dipilih sebagai 2 atau 3 (bigrams dan trigram). Adakah titik yang diketahui di mana pelacakan data untuk rantai ke-n menjadi kontraproduktif, mengingat jumlah waktu yang diperlukan untuk mengklasifikasikan korpus …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.