Ilmu Data nlp

2

Ekstrak string kanonik dari daftar string berisik

Saya memiliki ribuan daftar string, dan setiap daftar memiliki sekitar 10 string. Sebagian besar string dalam daftar yang diberikan sangat mirip, meskipun beberapa string (jarang) sama sekali tidak terkait dengan yang lain dan beberapa string berisi kata-kata yang tidak relevan. Mereka dapat dianggap sebagai variasi berisik dari string kanonik. Saya …

10 nlp similarity information-retrieval

1

Bagaimana menentukan kompleksitas kalimat bahasa Inggris?

Saya sedang mengerjakan aplikasi untuk membantu orang belajar bahasa Inggris sebagai bahasa kedua. Saya telah membuktikan bahwa kalimat membantu dalam belajar bahasa dengan memberikan konteks tambahan. Saya melakukan itu dengan melakukan penelitian kecil di ruang kelas yang terdiri dari 60 siswa. Saya telah menambang lebih dari seratus ribu kalimat dari …

10 machine-learning classification nlp text-mining

3

Hubungan antara belit dalam matematika dan CNN

Saya sudah membaca penjelasan konvolusi dan memahaminya sampai batas tertentu. Adakah yang bisa membantu saya memahami bagaimana operasi ini berhubungan dengan konvolusi dalam Jaring Saraf Konvolusional? Apakah fungsi seperti filter gyang menerapkan bobot?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang mengerjakan suatu proyek dan saya mengalami kesulitan dalam menentukan algoritma mana yang …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Apa model generatif dan diskriminatif? Bagaimana mereka digunakan dalam Pemrosesan Bahasa Alami?

Pertanyaan ini menanyakan tentang algoritma generatif vs diskriminatif, tetapi dapatkah seseorang memberikan contoh perbedaan antara formulir-formulir ini ketika diterapkan pada Pemrosesan Bahasa Alami? Bagaimana model generatif dan diskriminatif digunakan dalam NLP?

10 nlp language-model

5

Cara membuat daftar stopword yang bagus

Saya mencari beberapa petunjuk tentang cara membuat daftar stopwords. Adakah yang tahu / bisakah seseorang merekomendasikan metode yang bagus untuk mengekstrak daftar stopword dari dataset itu sendiri untuk preprocessing dan filtering? Data: sejumlah besar input teks manusia dengan panjang variabel (pencarian dan seluruh kalimat (hingga 200 karakter)) selama beberapa tahun. …

9 data-mining nlp information-retrieval language-model

1

Menggunakan Vowpal Wabbit untuk NER

Vowpal Wabbit (VW) tampaknya mendukung fungsi penandaan urutan melalui SEARN . Masalahnya adalah saya tidak dapat menemukan daftar parameter mana pun yang terperinci dengan penjelasan dan dengan beberapa contoh. Yang terbaik yang bisa saya temukan adalah entri blog Zinkov dengan contoh yang sangat singkat. The halaman wiki utama hampir tidak …

9 machine-learning nlp

1

Hitung kesamaan cosinus di Apache Spark

Saya memiliki DataFrame dengan IDF dari kata-kata tertentu yang dihitung. Sebagai contoh (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Sekarang berikan pertanyaan Q, saya bisa menghitung TF-IDF dari permintaan ini. Bagaimana cara menghitung kesamaan cosinus dari kueri dengan semua dokumen dalam kerangka data (ada hampir sejuta dokumen) Saya bisa melakukannya secara …

9 machine-learning nlp apache-spark cosine-distance

2

Apa itu formulasi LSTM-LM?

Saya membaca makalah ini "Sequence to Sequence Learning dengan Neural Networks" http://papers.nips.cc/paper/5346-afterence-to- followingence-learning-with-neural-networks.pdf Di bawah "2. Model" itu tertulis: LSTM menghitung probabilitas bersyarat ini dengan terlebih dahulu memperoleh representasi dimensi tetap v dari urutan input (x1, ..., xT) yang diberikan oleh keadaan tersembunyi terakhir dari LSTM, dan kemudian menghitung probabilitas …

8 machine-learning neural-network nlp rnn machine-translation

2

Apakah ada alternatif untuk nltk di golang?

Golang adalah salah satu bahasa favorit saya dan saya ingin menggunakannya untuk proyek NLP / ML pribadi. Apakah ekosistem golang cukup baik dan kaya untuk ini? Apakah ada paket alternatif untuk nltk di golang?

8 nlp nltk software-recommendation

1

Algoritme klasifikasi mana yang dicoba untuk mengklasifikasikan data teks ke dalam 300 kategori

Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di …

8 machine-learning classification nlp text-mining

1

Kompleks Chunking dengan NLTK

Saya mencoba mencari cara untuk menggunakan chunker cascading NLTK sesuai Bab 7 buku NLTK . Sayangnya, saya mengalami beberapa masalah saat melakukan tindakan chunking yang tidak sepele. Mari kita mulai dengan frasa ini: "adventure movies between 2000 and 2015 featuring performances by daniel craig" Saya dapat menemukan semua NP yang …

8 python nlp nltk

2

Menggunakan NLP untuk mengotomatiskan kategorisasi deskripsi pengguna

Saya memiliki file keluhan pelanggan yang sangat besar tentang produk yang dimiliki perusahaan saya dan saya ingin melakukan analisis data pada deskripsi tersebut dan menandai kategori untuk masing-masing. Sebagai contoh: Saya perlu mencari tahu jumlah keluhan di sisi Perangkat Lunak dan Keras produk saya dari keluhan pelanggan. Saat ini, saya …

8 data-mining classification nlp categorical-data

2

Apa sajakah cara standar menghitung jarak antara permintaan pencarian individual?

Saya mengajukan pertanyaan serupa tentang jarak antara "dokumen" (artikel Wikipedia, berita, dll.). Saya membuat pertanyaan ini terpisah karena permintaan pencarian jauh lebih kecil dari dokumen dan jauh lebih ribut. Karenanya saya tidak tahu (dan ragu) apakah metrik jarak yang sama akan digunakan di sini. Metrik jarak vanila leksikal atau metrik …

8 machine-learning nlp search

1

Dalam situasi apa lemmatization bukan langkah yang disarankan ketika bekerja dengan data teks?

Mengabaikan kemungkinan pembatasan komputasi, apakah ada aplikasi umum di mana lemmatization akan menjadi langkah kontraproduktif ketika menganalisis data teks? Misalnya, apakah lemmatisasi akan menjadi sesuatu yang tidak dilakukan ketika membangun model yang sadar konteks? Untuk referensi, lemmatization per dictinory.com adalah tindakan pengelompokan bersama bentuk-bentuk infleksi (kata) untuk analisis sebagai satu …

7 nlp data-cleaning

Pertanyaan yang diberi tag «nlp»