Pertanyaan yang diberi tag «text-mining»

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.


1
Berapa banyak data pelatihan yang dibutuhkan word2vec?
Saya ingin membandingkan perbedaan antara kata yang sama yang disebutkan dalam berbagai sumber. Artinya, bagaimana penulis berbeda dalam penggunaan kata-kata yang tidak jelas, seperti "demokrasi". Rencana singkat adalah Ambil buku-buku yang menyebutkan istilah "demokrasi" sebagai teks biasa Di setiap buku, ganti democracydengandemocracy_%AuthorName% Latih word2vecmodel di buku-buku ini Hitung jarak antara …

3

2
Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang mengerjakan suatu proyek dan saya mengalami kesulitan dalam menentukan algoritma mana yang …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
apa teknik mesin / pembelajaran mendalam / nlp yang digunakan untuk mengklasifikasikan kata-kata yang diberikan sebagai nama, nomor ponsel, alamat, email, negara bagian, county, kota dll
Saya mencoba membuat model cerdas yang dapat memindai serangkaian kata atau string dan mengklasifikasikannya sebagai nama, nomor ponsel, alamat, kota, negara, negara, dan entitas lainnya menggunakan pembelajaran mesin atau pembelajaran mendalam. Saya telah mencari pendekatan, tetapi sayangnya saya tidak menemukan pendekatan yang harus diambil. Saya telah mencoba dengan model tas …

4
Sarankan set data pelatihan penggolong teks
Kumpulan data mana yang tersedia secara bebas yang dapat saya gunakan untuk melatih classifier teks? Kami mencoba untuk meningkatkan keterlibatan pengguna kami dengan merekomendasikan konten yang paling terkait untuknya, jadi kami pikir. Jika kami mengklasifikasikan konten kami berdasarkan kantong kata yang telah ditentukan, kami dapat merekomendasikan kepadanya untuk melibatkan konten …

5
Berkelompok dengan kesamaan cosinus
Saya memiliki satu set data besar dan persamaan cosinus di antara mereka. Saya ingin mengelompokkannya menggunakan cosine similarity yang menyatukan objek-objek serupa tanpa perlu menentukan sebelumnya jumlah cluster yang saya harapkan. Saya membaca dokumentasi sklearn DBSCAN dan Affinity Propagation, di mana keduanya membutuhkan matriks jarak (bukan cosine similarity matrix). Sungguh, …

3
Bagaimana mengevaluasi pengelompokan teks?
Metrik apa yang dapat digunakan untuk mengevaluasi model pengelompokan teks? Saya menggunakan tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Bagaimana menentukan model mana yang terbaik?

4
Mengklasifikasikan Email dalam R
Saya sedang mengerjakan proyek di R di mana saya memiliki sekitar 1200 email dari sebuah perusahaan, yang sebagian besar diberi label kelas atau kelas , yang merupakan jenis permintaan. Sekitar 1000 email diberi label kelas , dan 200 email berlabel Tujuan saya adalah menggunakan pembelajaran terawasi untuk membangun model yang …

4
Bagaimana cara belajar deteksi email spam?
Saya ingin belajar bagaimana pendeteksi email spam dilakukan. Saya tidak mencoba membangun produk komersial, itu akan menjadi latihan pembelajaran yang serius bagi saya. Karena itu, saya mencari sumber daya, seperti proyek yang ada, kode sumber, artikel, makalah dll yang dapat saya ikuti. Saya ingin belajar dengan contoh, saya pikir saya …

1
Algoritme klasifikasi mana yang dicoba untuk mengklasifikasikan data teks ke dalam 300 kategori
Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di …

1
Perbedaan antara tf-idf dan tf dengan Random Forests
Saya sedang mengerjakan masalah klasifikasi teks menggunakan Random Forest sebagai pengklasifikasi, dan pendekatan bag-of-words. Saya menggunakan implementasi dasar dari Random Forests (yang ada di scikit), yang menciptakan kondisi biner pada variabel tunggal di setiap pembagian. Mengingat hal ini, apakah ada perbedaan antara menggunakan fitur tf (frekuensi frekuensi) sederhana. di mana …

1
R kesalahan menggunakan paket tm (penambangan teks)
Saya mencoba menggunakan paket tm untuk mengkonversi vektor string teks ke elemen corpus. Kode saya terlihat seperti ini Corpus(d1$Yes) di mana d1$Yesfaktor dengan 124 level, masing-masing berisi string teks. Sebagai contoh, d1$Yes[246] = "So we can get the boat out!" Saya menerima kesalahan berikut: "Error: inherits(x, "Source") is not TRUE" …
8 r  text-mining 
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.