Pertanyaan yang diberi tag «text-mining»

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

2
Scaling Data Scaling yang Etis dan Hemat Biaya
Beberapa hal dalam hidup memberi saya kesenangan seperti menggores data terstruktur dan tidak terstruktur dari Internet dan memanfaatkannya dalam model saya. Sebagai contoh, Data Science Toolkit (atau RDSTKuntuk programmer R) memungkinkan saya untuk menarik banyak data berbasis lokasi yang baik menggunakan IP atau alamat dan paket tm.webmining.pluginuntuk R tmmembuat goresan …

4
Alternatif untuk TF-IDF dan Cosine Similarity ketika membandingkan dokumen dengan format berbeda
Saya telah mengerjakan proyek kecil pribadi yang membutuhkan keterampilan kerja pengguna dan menyarankan karier yang paling ideal bagi mereka berdasarkan keterampilan itu. Saya menggunakan database daftar pekerjaan untuk mencapai ini. Saat ini, kodenya berfungsi sebagai berikut: 1) Memproses teks dari setiap daftar pekerjaan untuk mengekstrak keterampilan yang disebutkan dalam daftar …

3
Klasifikasi teks tidak terstruktur
Saya akan mengklasifikasikan dokumen teks tidak terstruktur, yaitu situs web dengan struktur yang tidak diketahui. Jumlah kelas yang saya klasifikasikan terbatas (pada titik ini, saya yakin tidak ada lebih dari tiga). Adakah yang menyarankan agar saya bisa mulai? Apakah pendekatan "kantong kata" layak dilakukan di sini? Kemudian, saya bisa menambahkan …

2
Algoritma Pencocokan Preferensi
Ada proyek sampingan yang sedang saya kerjakan di mana saya perlu menyusun solusi untuk masalah berikut. Saya memiliki dua kelompok orang (klien). Grup Abermaksud untuk membeli dan grup Bbermaksud untuk menjual produk yang ditentukan X. Produk ini memiliki serangkaian atribut x_i, dan tujuan saya adalah untuk memfasilitasi transaksi antara Adan …



1
menerapkan word2vec pada file teks kecil
Saya benar-benar baru di word2vec jadi tolong bawa. Saya memiliki satu set file teks yang masing-masing berisi satu set tweet, antara 1000-3000. Saya telah memilih kata kunci yang umum ("kw1") dan ingin mencari istilah yang relevan secara semantik untuk "kw1" menggunakan word2vec. Misalnya jika kata kuncinya adalah "apel", saya akan …

3
Apa perbedaan antara vektorizer hashing dan vektorizer tfidf
Saya mengubah kumpulan dokumen teks menjadi vektor kata untuk setiap dokumen. Saya sudah mencoba ini menggunakan TfidfVectorizer dan HashingVectorizer Saya mengerti bahwa a HashingVectorizertidak mempertimbangkan IDFskor seperti halnya a TfidfVectorizer. Alasan saya masih bekerja dengan a HashingVectorizeradalah fleksibilitas yang diberikannya ketika berhadapan dengan dataset besar, seperti yang dijelaskan di sini …

4
Menggunakan Clustering dalam pemrosesan teks
Hai, ini adalah pertanyaan pertama saya di tumpukan Ilmu Data. Saya ingin membuat algoritma untuk klasifikasi teks. Misalkan saya punya satu set besar teks dan artikel. Mari kita katakan sekitar 5000 teks biasa. Saya pertama kali menggunakan fungsi sederhana untuk menentukan frekuensi keempat kata karakter di atas. Saya kemudian menggunakan …

3
Pembelajaran fitur tanpa pengawasan untuk NER
Saya telah mengimplementasikan sistem NER dengan menggunakan algoritma CRF dengan fitur buatan tangan saya yang memberikan hasil yang cukup baik. Masalahnya adalah saya menggunakan banyak fitur berbeda termasuk tag POS dan lemmas. Sekarang saya ingin membuat NER yang sama untuk bahasa yang berbeda. Masalahnya di sini adalah saya tidak bisa …

3
Bahasa terbaik untuk komputasi ilmiah [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Teks-Klasifikasi-Masalah: Apakah Word2Vec / NN pendekatan terbaik?
Saya mencari untuk merancang suatu sistem yang diberi paragraf teks akan dapat mengkategorikannya dan mengidentifikasi konteksnya: Terlatih dengan paragraf teks yang dibuat pengguna (seperti komentar / pertanyaan / jawaban) Setiap item dalam set pelatihan akan ditandai. Jadi untuk mis ("kategori 1",, "paragraf teks") Akan ada ratusan kategori Apa yang akan …

3
Model ruang vektor cosinus tf-idf untuk menemukan dokumen serupa
Memiliki kumpulan lebih dari jutaan dokumen Untuk dokumen yang diberikan ingin mencari dokumen serupa menggunakan cosinus seperti dalam model ruang vektor d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Semua tf telah dinormalisasi menggunakan frekuensi augmented, untuk mencegah bias terhadap dokumen yang lebih panjang seperti dalam tf-idf ini : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): …

1
Beberapa label dalam algoritma pembelajaran terawasi
Saya memiliki kumpulan teks dengan topik yang sesuai. Misalnya "A rapper Tupac was shot in LA"dan diberi label sebagai ["celebrity", "murder"]. Jadi pada dasarnya setiap vektor fitur dapat memiliki banyak label (bukan jumlah yang sama. Vektor fitur pertama dapat memiliki 3 label, kedua 1, ketiga 5). Jika saya hanya memiliki …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.