Pertanyaan yang diberi tag «text-mining»

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Bagaimana cara kerja lapisan Keras 'Embedding'?
Perlu memahami cara kerja lapisan 'Embedding' di perpustakaan Keras. Saya menjalankan kode berikut dengan Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) yang memberikan output berikut input_array = [[4 …

6
Bagaimana kuasi mencocokkan dua vektor string (dalam R)?
Saya tidak yakin bagaimana ini harus disebut, jadi tolong perbaiki saya jika Anda tahu istilah yang lebih baik. Saya punya dua daftar. Salah satu dari 55 item (misalnya: vektor string), yang lain dari 92. Nama-nama item serupa tetapi tidak identik. Saya berharap untuk menemukan yang terbaik kandidat s di 92 …
36 r  text-mining 

6
Klasifikasi statistik teks
Saya seorang programmer tanpa latar belakang statistik, dan saat ini saya sedang mencari metode klasifikasi yang berbeda untuk sejumlah besar dokumen yang berbeda yang ingin saya klasifikasikan ke dalam kategori yang telah ditentukan. Saya telah membaca tentang kNN, SVM dan NN. Namun, saya kesulitan memulai. Sumber daya apa yang Anda …

4
Teknik pembelajaran mesin untuk string parsing?
Saya memiliki banyak string alamat: 1600 Pennsylvania Ave, Washington, DC 20500 USA Saya ingin mengurai mereka menjadi komponen-komponen mereka: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Tetapi tentu saja datanya kotor: itu berasal dari banyak negara dalam banyak bahasa, ditulis dengan cara yang berbeda, mengandung …


2
Perbedaan antara Bayes naif & Bayes naif multinomial
Saya pernah berurusan dengan classifier Naif Bayes sebelumnya. Saya telah membaca tentang Multinomial Naif Bayes belakangan ini. Juga Probabilitas Posterior = (Sebelum * Kemungkinan) / (Bukti) . Satu-satunya perbedaan utama (saat memprogram pengklasifikasi ini) yang saya temukan antara Naive Bayes & Multinomial Naive Bayes adalah bahwa Multinomial Naive Bayes menghitung …


7
Di Naif Bayes, mengapa repot-repot dengan Laplace smoothing ketika kita memiliki kata-kata yang tidak diketahui dalam set tes?
Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing : Mari ccc merujuk ke kelas (seperti positif atau negatif), dan membiarkan www mengacu pada tanda atau kata. Estimasi kemungkinan maksimum untuk P( w | c )P(w|c)P(w|c) adalah c o u n …


3
Model topik dan kata metode co-kejadian
Model topik populer seperti LDA biasanya mengelompokkan kata-kata yang cenderung muncul bersama dalam topik yang sama (cluster). Apa perbedaan utama antara model topik tersebut, dan pendekatan pengelompokan sederhana berdasarkan kejadian bersama lainnya seperti PMI? (PMI singkatan dari Pointwise Mutual Information, dan digunakan untuk mengidentifikasi kata-kata yang muncul bersamaan dengan kata …

2
Bag-of-Words untuk Klasifikasi Teks: Mengapa tidak hanya menggunakan frekuensi kata daripada TFIDF?
Pendekatan umum untuk klasifikasi teks adalah untuk melatih classifier dari 'kata-kata'. Pengguna mengambil teks untuk diklasifikasikan dan menghitung frekuensi kata-kata di setiap objek, diikuti oleh semacam pemangkasan untuk menjaga matriks yang dihasilkan dari ukuran yang dapat dikelola. Seringkali, saya melihat pengguna membuat vektor fitur mereka menggunakan TFIDF. Dengan kata lain, …

1
Apakah kinerja canggih menggunakan vektor paragraf untuk analisis sentimen telah direplikasi?
Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan perluasan model word2vec. Makalah ini melaporkan kinerja canggih pada analisis sentimen …

3
Pembelajaran semi-diawasi, pembelajaran aktif dan pembelajaran mendalam untuk klasifikasi
Suntingan terakhir dengan semua sumber daya diperbarui: Untuk sebuah proyek, saya menerapkan algoritma pembelajaran mesin untuk klasifikasi. Tantangan: Data berlabel yang cukup terbatas dan lebih banyak lagi data yang tidak berlabel. Tujuan: Terapkan klasifikasi semi-terawasi Terapkan proses pelabelan yang semi-diawasi (dikenal sebagai pembelajaran aktif) Saya telah menemukan banyak informasi dari …

2
Mengapa Pemrosesan Bahasa Alami tidak termasuk dalam domain Machine Learning? [Tutup]
Seperti saat ini, pertanyaan ini tidak cocok untuk format tanya jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini dapat diperbaiki dan mungkin dibuka kembali, kunjungi pusat bantuan untuk panduan. …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.