Pertanyaan yang diberi tag «text-mining»

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

2
Mengapa n-gram digunakan dalam identifikasi bahasa teks, bukan kata-kata?
Dalam dua perpustakaan identifikasi bahasa populer, Compact Language Detector 2 untuk C ++ dan bahasa detektor untuk java, keduanya menggunakan (berbasis karakter) n-gram untuk mengekstraksi fitur teks. Mengapa kantung kata-kata (satu kata / kamus) tidak digunakan, dan apa keuntungan dan kerugian kantung kata-kata dan n-gram? Juga, apa kegunaan lain dari …



5
Buku bagus tentang penambangan teks?
Hai Saya ingin tahu apakah ada beberapa buku bagus tentang penggalian dan klasifikasi teks dengan beberapa studi kasus ?. Jika tidak beberapa makalah / jurnal dapat diakses oleh publik akan melakukannya. Jika mereka menggambarkan contoh mereka dengan R lebih baik. Saya tidak mencari langkah demi langkah manual tetapi sesuatu yang …

1
IDF tambahan (Frekuensi Dokumen Invers)
Dalam aplikasi penambangan teks, salah satu pendekatan sederhana adalah menggunakan heuristik untuk membuat vektor sebagai representasi dokumen yang jarang. Ini bagus untuk pengaturan batch, di mana seluruh corpus dikenal a-priori, karena membutuhkan seluruh corpusi d ft f- saya dftf−idftf-idfsaya dfidfidf saya d f( t ) = log| D || {d: …

1
Memahami penggunaan logaritma dalam logaritma TF-IDF
Saya sedang membaca: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu. Apa yang saya Pahami: iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering. Dari perspektif itu saya D F( …

3
Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks
Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

1
Apakah interpretasi sparsity ini akurat?
Menurut dokumentasi removeSparseTermsfungsi dari tmpaket, inilah yang diperlukan sparsity: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less …



1
Menggunakan alat penambangan teks / bahasa alami untuk ekonometrika
Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus. Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan …

1
Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?
Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Memahami dan menerapkan analisis sentimen
Saya baru saja ditugaskan proyek melakukan analisis sentimen untuk beberapa koleksi dokumen. Oleh Googling, banyak penelitian terkait sentimen bermunculan. Pertanyaan saya adalah: Apa metode / algoritma utama untuk analisis sentimen di bidang pembelajaran mesin dan analisis statistik? Apakah ada hasil yang mapan? Apakah ada perangkat lunak sumber terbuka yang dapat …

4
Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?
Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.