Pertanyaan yang diberi tag «data-mining»

Aktivitas yang mencari pola dalam kumpulan data yang besar dan kompleks. Biasanya menekankan teknik algoritmik, tetapi mungkin juga melibatkan serangkaian keterampilan, aplikasi, atau metodologi terkait dengan tujuan itu.


3
Klasifikasi diskriminatif Satu Kelas dengan latar belakang Negatif heterogen dan tidak seimbang?
Saya sedang bekerja untuk meningkatkan classifier yang diawasi yang ada, untuk mengklasifikasikan urutan {protein} milik kelas tertentu (Neuropeptide hormone precursors), atau tidak. Ada sekitar 1.150 "positif" yang diketahui, dengan latar belakang sekitar 13 juta sekuens protein ("Tidak diketahui / latar belakang beranotasi buruk"), atau sekitar 100.000 protein relevan yang ditinjau, …

5
membuat peta panas seaborn lebih besar
Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk mencetak keseluruhan dfterlepas dari ukurannya atau …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


4
Pohon keputusan vs. KNN
Dalam kasus apa lebih baik menggunakan pohon Keputusan dan kasus lainnya KNN? Mengapa menggunakan salah satunya dalam kasus tertentu? Dan yang lainnya dalam kasus yang berbeda? (Dengan melihat fungsinya, bukan pada algoritma) Adakah yang punya penjelasan atau referensi tentang ini?



1
Kenali tata bahasa dalam urutan token fuzzy
Saya memiliki dokumen teks yang sebagian besar berisi daftar Item. Setiap Item adalah sekelompok token dari berbagai jenis: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, dll. Token adalah sekelompok kata. Barang bisa terletak pada beberapa baris. Item dari dokumen memiliki sintaks token yang sama, tetapi tidak harus sama persis. Mereka mungkin …

1
Neo4j vs OrientDB vs Titan
Saya sedang mengerjakan proyek data-sains yang terkait dengan penambangan hubungan sosial dan perlu menyimpan data dalam beberapa basis data grafik. Awalnya saya memilih Neo4j sebagai databasenya. Tapi sepertinya Neo4j tidak skala dengan baik. Alternatif yang saya temukan adalah Titan dan oriebtDB. Saya telah melalui perbandingan ini pada ketiga Basis Data …

4
Studi kasus big data atau contoh penggunaan kasus
Saya telah membaca banyak artikel \ blog tentang bagaimana berbagai jenis industri menggunakan Big Data Analytic. Tetapi sebagian besar dari artikel ini gagal menyebutkan Apa yang agak data perusahaan ini digunakan. Berapa ukuran data Alat teknologi apa yang mereka gunakan untuk memproses data Apa masalah yang mereka hadapi dan bagaimana …


2
Apakah ada API untuk merayapi abstrak kertas?
Jika saya memiliki daftar nama kertas yang sangat panjang, bagaimana saya bisa mendapatkan abstrak dari makalah ini dari internet atau database apa pun? Nama-nama kertas seperti "Penilaian Utilitas dalam Penambangan Web untuk Domain Kesehatan Masyarakat". Adakah yang tahu API apa pun yang bisa memberi saya solusi? Saya mencoba menjelajah google …

2
Tarif Maskapai - Analisis apa yang harus digunakan untuk mendeteksi perilaku penetapan harga yang kompetitif dan korelasi harga?
Saya ingin menyelidiki perilaku pengaturan harga maskapai penerbangan - khususnya bagaimana maskapai penerbangan bereaksi terhadap harga pesaing. Seperti yang akan saya katakan pengetahuan saya tentang analisis yang lebih kompleks cukup terbatas, saya telah melakukan sebagian besar semua metode dasar untuk mengumpulkan pandangan keseluruhan data. Ini termasuk grafik sederhana yang sudah …

2
Apakah FPGrowth masih dianggap "canggih" dalam penambangan pola yang sering?
Sejauh yang saya tahu pengembangan algoritma untuk memecahkan masalah Frequent Pattern Mining (FPM), jalan perbaikan memiliki beberapa pos pemeriksaan utama. Pertama, algoritma Apriori diusulkan pada tahun 1993, oleh Agrawal et al. , bersamaan dengan formalisasi masalah. Algoritma ini dapat menghapus beberapa set dari 2^n - 1set (powerset) dengan menggunakan kisi …

3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.