Statistik dan Big Data text-mining

2

Mengapa n-gram digunakan dalam identifikasi bahasa teks, bukan kata-kata?

Dalam dua perpustakaan identifikasi bahasa populer, Compact Language Detector 2 untuk C ++ dan bahasa detektor untuk java, keduanya menggunakan (berbasis karakter) n-gram untuk mengekstraksi fitur teks. Mengapa kantung kata-kata (satu kata / kamus) tidak digunakan, dan apa keuntungan dan kerugian kantung kata-kata dan n-gram? Juga, apa kegunaan lain dari …

12 machine-learning classification text-mining natural-language

7

Apa saja paket penambangan teks untuk R dan apakah ada program penambangan teks sumber terbuka lainnya?

Bisakah Anda merekomendasikan paket penambangan teks dalam R yang dapat digunakan terhadap volume data yang besar? Kedua, apakah ada GUI yang tersedia untuk semua paket penambangan teks di R? Ketiga, adakah program penambangan teks open source lain yang mudah dan intuitif untuk digunakan?

12 r text-mining

2

Tas kata vs model ruang vektor?

Apa perbedaan antara model representasi teks ini: Tas kata dan model ruang vektor?

12 machine-learning text-mining

5

Buku bagus tentang penambangan teks?

Hai Saya ingin tahu apakah ada beberapa buku bagus tentang penggalian dan klasifikasi teks dengan beberapa studi kasus ?. Jika tidak beberapa makalah / jurnal dapat diakses oleh publik akan melakukannya. Jika mereka menggambarkan contoh mereka dengan R lebih baik. Saya tidak mencari langkah demi langkah manual tetapi sesuatu yang …

11 references text-mining

1

IDF tambahan (Frekuensi Dokumen Invers)

Dalam aplikasi penambangan teks, salah satu pendekatan sederhana adalah menggunakan heuristik untuk membuat vektor sebagai representasi dokumen yang jarang. Ini bagus untuk pengaturan batch, di mana seluruh corpus dikenal a-priori, karena membutuhkan seluruh corpusi d ft f- saya dftf−idftf-idfsaya dfidfidf saya d f( t ) = log| D || {d: …

11 time-series text-mining

1

Memahami penggunaan logaritma dalam logaritma TF-IDF

Saya sedang membaca: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu. Apa yang saya Pahami: iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering. Dari perspektif itu saya D F( …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks

Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

10 machine-learning data-mining text-mining natural-language language-models

1

Apakah interpretasi sparsity ini akurat?

Menurut dokumentasi removeSparseTermsfungsi dari tmpaket, inilah yang diperlukan sparsity: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less …

10 r text-mining natural-language

1

Mengapa menambahkan satu dalam frekuensi dokumen terbalik?

Saya buku daftar yang idf sebagai manal o g( 1 + Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) : Jumlah DokumenNNN tntntn_t : Jumlah Dokumen yang mengandung istilahttt Wikipedia mencantumkan rumus ini sebagai versi dari aktual . Yang saya mengerti: berkisar dari hingga yang tampaknya intuitif. Tapi berubah dari menjadi yang tampaknya sangat aneh ... Saya …

9 text-mining natural-language smoothing

2

Apa itu VectorSource dan VCorpus dalam paket 'tm' (Text Mining) di R

Saya tidak yakin apa sebenarnya VectorSource dan VCorpus dalam paket 'tm'. Dokumentasinya tidak jelas mengenai hal ini, adakah yang bisa membuat saya mengerti secara sederhana?

9 r text-mining

1

Menggunakan alat penambangan teks / bahasa alami untuk ekonometrika

Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus. Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan …

9 machine-learning data-mining econometrics text-mining natural-language

1

Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?

Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Memahami dan menerapkan analisis sentimen

Saya baru saja ditugaskan proyek melakukan analisis sentimen untuk beberapa koleksi dokumen. Oleh Googling, banyak penelitian terkait sentimen bermunculan. Pertanyaan saya adalah: Apa metode / algoritma utama untuk analisis sentimen di bidang pembelajaran mesin dan analisis statistik? Apakah ada hasil yang mapan? Apakah ada perangkat lunak sumber terbuka yang dapat …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?

Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

3

Bagaimana Anda mengategorikan / mengekstraksi informasi dari deskripsi pekerjaan?

Saya memiliki banyak uraian tugas yang dimasukkan oleh pengguna. Ada semua jenis salah eja dan data buruk. yaitu: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... Langkah apa yang akan Anda …

8 classification categorical-data text-mining

Pertanyaan yang diberi tag «text-mining»