Ilmu Data nlp

3

Model basis data yang efisien untuk menyimpan data yang diindeks oleh n-gram

Saya sedang mengerjakan sebuah aplikasi yang membutuhkan pembuatan database n-gram yang sangat besar yang ada dalam corpus teks besar. Saya membutuhkan tiga jenis operasi yang efisien: Pencarian dan penyisipan diindeks oleh n-gram itu sendiri, dan permintaan untuk semua n-gram yang berisi sub-n-gram. Bagi saya ini kedengarannya seperti database harus pohon …

12 nlp databases

3

Bantuan tentang NER di NLTK

Saya telah bekerja di NLTK untuk sementara menggunakan Python. Masalah yang saya hadapi adalah tidak ada bantuan yang tersedia untuk melatih NER di NLTK dengan data khusus saya. Mereka telah menggunakan MaxEnt dan melatihnya pada ACE corpus. Saya telah mencari di web banyak tetapi saya tidak dapat menemukan cara yang …

12 machine-learning python nlp

1

Berapa banyak sel LSTM yang harus saya gunakan?

Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Bahasa Alam ke SQL query

Saya telah bekerja mengembangkan sistem "Konversi Bahasa Alami ke SQL Query". Saya telah membaca jawaban dari pertanyaan serupa, tetapi tidak dapat memperoleh informasi yang saya cari. Di bawah ini adalah diagram alur untuk sistem seperti yang saya dapatkan dari Algoritma untuk Mengubah Bahasa Alam menjadi SQL Query untuk Database Relasional …

12 machine-learning nlp sql natural-language-process

3

Apakah ada model bahasa out-of-the-box yang bagus untuk python?

Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Ekstrak informasi dari kalimat

Saya membuat chatbot sederhana. Saya ingin mendapatkan informasi dari respons pengguna. Contoh skenario: Bot : Hi, what is your name? User: My name is Edwin. Saya ingin mengekstrak nama Edwin dari kalimat itu. Namun, pengguna dapat merespons dengan berbagai cara seperti User: Edwin is my name. User: I am Edwin. …

11 python nlp

1

Cara menentukan apakah urutan karakter adalah kata bahasa Inggris atau noise

Jenis fitur apa yang akan Anda coba ekstrak dari daftar kata untuk diprediksi di masa depan, apakah itu kata yang ada atau hanya karakter yang berantakan? Ada deskripsi tugas yang saya temukan di sana . Anda harus menulis sebuah program yang dapat menjawab apakah kata yang diberikan adalah bahasa Inggris. …

11 machine-learning nlp text-mining algorithms

2

Bagaimana cara "niat recognisers" bekerja?

Amazon Alexa , Nuance's Mix dan Facebook's Wit.ai semuanya menggunakan sistem yang sama untuk menentukan cara mengubah perintah teks menjadi maksud - yaitu sesuatu yang akan dipahami komputer. Saya tidak yakin apa nama "resmi" untuk ini, tetapi saya menyebutnya "pengakuan niat". Pada dasarnya cara untuk beralih dari "setel lampu saya …

11 machine-learning nlp

1

menerapkan word2vec pada file teks kecil

Saya benar-benar baru di word2vec jadi tolong bawa. Saya memiliki satu set file teks yang masing-masing berisi satu set tweet, antara 1000-3000. Saya telah memilih kata kunci yang umum ("kw1") dan ingin mencari istilah yang relevan secara semantik untuk "kw1" menggunakan word2vec. Misalnya jika kata kuncinya adalah "apel", saya akan …

11 machine-learning nlp text-mining

4

Bagaimana word2vec dapat digunakan untuk mengidentifikasi kata-kata yang tidak terlihat dan menghubungkannya dengan data yang sudah terlatih

Saya sedang mengerjakan model gensim word2vec dan merasa sangat menarik. Saya tertarik menemukan bagaimana kata yang tidak diketahui / tidak terlihat ketika diperiksa dengan model akan bisa mendapatkan istilah yang sama dari model yang dilatih. Apakah ini mungkin? Bisakah word2vec di-tweak untuk ini? Atau pelatihan corpus perlu memiliki semua kata …

11 nlp deep-learning word-embeddings unsupervised-learning

3

Apa perbedaan antara vektorizer hashing dan vektorizer tfidf

Saya mengubah kumpulan dokumen teks menjadi vektor kata untuk setiap dokumen. Saya sudah mencoba ini menggunakan TfidfVectorizer dan HashingVectorizer Saya mengerti bahwa a HashingVectorizertidak mempertimbangkan IDFskor seperti halnya a TfidfVectorizer. Alasan saya masih bekerja dengan a HashingVectorizeradalah fleksibilitas yang diberikannya ketika berhadapan dengan dataset besar, seperti yang dijelaskan di sini …

11 nlp scikit-learn text-mining tfidf

3

Pembelajaran fitur tanpa pengawasan untuk NER

Saya telah mengimplementasikan sistem NER dengan menggunakan algoritma CRF dengan fitur buatan tangan saya yang memberikan hasil yang cukup baik. Masalahnya adalah saya menggunakan banyak fitur berbeda termasuk tag POS dan lemmas. Sekarang saya ingin membuat NER yang sama untuk bahasa yang berbeda. Masalahnya di sini adalah saya tidak bisa …

11 nlp text-mining feature-extraction

3

Bagaimana cara memproses pertanyaan bahasa alami?

Saya ingin tahu tentang permintaan bahasa alami. Stanford memiliki perangkat lunak yang kuat untuk memproses bahasa alami . Saya juga melihat perpustakaan Apache OpenNLP , dan Arsitektur Umum untuk Rekayasa Teks . Ada sejumlah besar kegunaan untuk pemrosesan bahasa alami dan yang membuat dokumentasi proyek-proyek ini sulit untuk diserap dengan …

11 nlp

3

Bahasa terbaik untuk komputasi ilmiah [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Apakah Word2Vec dan Doc2Vec merupakan representasi distribusi atau representasi terdistribusi?

Saya telah membaca bahwa representasi distribusi didasarkan pada hipotesis distribusi bahwa kata-kata yang muncul dalam konteks yang sama cenderung memiliki makna yang sama. Word2Vec dan Doc2Vec keduanya dimodelkan sesuai dengan hipotesis ini. Tapi, di koran aslinya, bahkan mereka diberi judul sebagai Distributed representation of words and phrasesdan Distributed representation of …

10 nlp word-embeddings terminology word2vec

Pertanyaan yang diberi tag «nlp»