Pertanyaan yang diberi tag «nlp»

Pemrosesan bahasa alami (NLP) adalah bidang ilmu komputer, kecerdasan buatan, dan linguistik yang berkaitan dengan interaksi antara komputer dan bahasa manusia (alami). Dengan demikian, NLP terkait dengan bidang interaksi manusia-komputer. Banyak tantangan dalam NLP melibatkan pemahaman bahasa alami, yaitu, memungkinkan komputer untuk mendapatkan makna dari input bahasa manusia atau bahasa alami, dan yang lain melibatkan generasi bahasa alami.

4
Alokasi Dirichlet Laten vs Proses Dirichlet Hierarkis
Alokasi Dirichlet Laten (LDA) dan Proses Hirarki Dirichlet (HDP) keduanya merupakan proses pemodelan topik. Perbedaan utama adalah LDA membutuhkan spesifikasi jumlah topik, dan HDP tidak. Kenapa begitu? Dan apa perbedaan, pro, dan kontra dari kedua metode pemodelan topik?
49 nlp  topic-model  lda 


1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Algoritma apa yang harus saya gunakan untuk melakukan klasifikasi pekerjaan berdasarkan data resume?
Perhatikan bahwa saya melakukan semuanya dalam R. Masalahnya sebagai berikut: Pada dasarnya, saya memiliki daftar riwayat hidup (CV). Beberapa kandidat akan memiliki pengalaman kerja sebelumnya dan beberapa tidak. Tujuannya di sini adalah untuk: berdasarkan teks pada CV mereka, saya ingin mengklasifikasikan mereka ke dalam sektor pekerjaan yang berbeda. Saya khususnya …


4
Word2Vec untuk Pengakuan Entitas Bernama
Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi yang layak atau tutorial yang layak untuk jenis model itu. Karena saya bekerja …



3
Apa input yang lebih baik untuk Word2Vec?
Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan gensim. Corpus dibagi dengan kalimat: SentenceCorpus = [["first", …

3
Bagaimana cara memuat model pretrain FastText dengan Gensim?
Saya mencoba memuat model fastText pretrained dari sini model Fasttext . Saya menggunakan wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Tapi, itu menunjukkan kesalahan berikut Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), …
21 nlp  gensim 

2
Memprediksi kata menggunakan model Word2vec
Diberi kalimat: "Ketika saya membuka ?? pintu mulai memanas secara otomatis" Saya ingin mendapatkan daftar kata-kata yang mungkin masuk ?? dengan probabilitas. Konsep dasar yang digunakan dalam model word2vec adalah untuk "memprediksi" kata yang diberikan konteks sekitarnya. Setelah model dibuat, operasi vektor konteks apa yang tepat untuk melakukan tugas prediksi …

4
Bagaimana saya bisa mendapatkan kesamaan kata-kata semantik?
Apa cara terbaik untuk mengetahui kemiripan semantik kata-kata? Word2Vec baik-baik saja, tetapi tidak ideal: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer …


3
Dataset untuk Pengakuan Entitas Bernama pada Teks Informal
Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih "informal" daripada entri artikel artikel dan …
18 dataset  nlp 

4
Bagaimana cara membuat anotasi dokumen teks dengan meta-data?
Memiliki banyak dokumen teks (dalam bahasa alami, tidak terstruktur), apa cara yang memungkinkan untuk membuat anotasi dengan beberapa meta-data semantik? Misalnya, pertimbangkan dokumen pendek: I saw the company's manager last day. Untuk dapat mengekstraksi informasi darinya, harus dianotasi dengan data tambahan agar tidak ambigu. Proses menemukan meta-data tersebut tidak dipertanyakan, …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.