Pertanyaan yang diberi tag «nlp»

Pemrosesan bahasa alami (NLP) adalah bidang ilmu komputer, kecerdasan buatan, dan linguistik yang berkaitan dengan interaksi antara komputer dan bahasa manusia (alami). Dengan demikian, NLP terkait dengan bidang interaksi manusia-komputer. Banyak tantangan dalam NLP melibatkan pemahaman bahasa alami, yaitu, memungkinkan komputer untuk mendapatkan makna dari input bahasa manusia atau bahasa alami, dan yang lain melibatkan generasi bahasa alami.

2
Ekstrak string kanonik dari daftar string berisik
Saya memiliki ribuan daftar string, dan setiap daftar memiliki sekitar 10 string. Sebagian besar string dalam daftar yang diberikan sangat mirip, meskipun beberapa string (jarang) sama sekali tidak terkait dengan yang lain dan beberapa string berisi kata-kata yang tidak relevan. Mereka dapat dianggap sebagai variasi berisik dari string kanonik. Saya …


3
Hubungan antara belit dalam matematika dan CNN
Saya sudah membaca penjelasan konvolusi dan memahaminya sampai batas tertentu. Adakah yang bisa membantu saya memahami bagaimana operasi ini berhubungan dengan konvolusi dalam Jaring Saraf Konvolusional? Apakah fungsi seperti filter gyang menerapkan bobot?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang mengerjakan suatu proyek dan saya mengalami kesulitan dalam menentukan algoritma mana yang …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


5
Cara membuat daftar stopword yang bagus
Saya mencari beberapa petunjuk tentang cara membuat daftar stopwords. Adakah yang tahu / bisakah seseorang merekomendasikan metode yang bagus untuk mengekstrak daftar stopword dari dataset itu sendiri untuk preprocessing dan filtering? Data: sejumlah besar input teks manusia dengan panjang variabel (pencarian dan seluruh kalimat (hingga 200 karakter)) selama beberapa tahun. …

1
Menggunakan Vowpal Wabbit untuk NER
Vowpal Wabbit (VW) tampaknya mendukung fungsi penandaan urutan melalui SEARN . Masalahnya adalah saya tidak dapat menemukan daftar parameter mana pun yang terperinci dengan penjelasan dan dengan beberapa contoh. Yang terbaik yang bisa saya temukan adalah entri blog Zinkov dengan contoh yang sangat singkat. The halaman wiki utama hampir tidak …

1
Hitung kesamaan cosinus di Apache Spark
Saya memiliki DataFrame dengan IDF dari kata-kata tertentu yang dihitung. Sebagai contoh (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Sekarang berikan pertanyaan Q, saya bisa menghitung TF-IDF dari permintaan ini. Bagaimana cara menghitung kesamaan cosinus dari kueri dengan semua dokumen dalam kerangka data (ada hampir sejuta dokumen) Saya bisa melakukannya secara …

2
Apa itu formulasi LSTM-LM?
Saya membaca makalah ini "Sequence to Sequence Learning dengan Neural Networks" http://papers.nips.cc/paper/5346-afterence-to- followingence-learning-with-neural-networks.pdf Di bawah "2. Model" itu tertulis: LSTM menghitung probabilitas bersyarat ini dengan terlebih dahulu memperoleh representasi dimensi tetap v dari urutan input (x1, ..., xT) yang diberikan oleh keadaan tersembunyi terakhir dari LSTM, dan kemudian menghitung probabilitas …


1
Algoritme klasifikasi mana yang dicoba untuk mengklasifikasikan data teks ke dalam 300 kategori
Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di …

1
Kompleks Chunking dengan NLTK
Saya mencoba mencari cara untuk menggunakan chunker cascading NLTK sesuai Bab 7 buku NLTK . Sayangnya, saya mengalami beberapa masalah saat melakukan tindakan chunking yang tidak sepele. Mari kita mulai dengan frasa ini: "adventure movies between 2000 and 2015 featuring performances by daniel craig" Saya dapat menemukan semua NP yang …
8 python  nlp  nltk 



1
Dalam situasi apa lemmatization bukan langkah yang disarankan ketika bekerja dengan data teks?
Mengabaikan kemungkinan pembatasan komputasi, apakah ada aplikasi umum di mana lemmatization akan menjadi langkah kontraproduktif ketika menganalisis data teks? Misalnya, apakah lemmatisasi akan menjadi sesuatu yang tidak dilakukan ketika membangun model yang sadar konteks? Untuk referensi, lemmatization per dictinory.com adalah tindakan pengelompokan bersama bentuk-bentuk infleksi (kata) untuk analisis sebagai satu …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.