Pertanyaan yang diberi tag «categorical-data»

Data kategoris dapat memiliki sejumlah kemungkinan nilai terbatas (biasanya tetap) yang disebut kategori. Nilai kategoris "label", mereka tidak "mengukur". Jenis skala nominal dan dikotomis / biner bersifat kategorikal. Beberapa orang menganggap skala ordinal kategorikal juga.

13
K-Means clustering untuk data numerik dan kategorik campuran
Kumpulan data saya berisi sejumlah atribut numerik dan satu kategori. Katakan NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, di mana CategoricalAttrmengambil salah satu dari tiga kemungkinan nilai: CategoricalAttrValue1, CategoricalAttrValue2atau CategoricalAttrValue3. Saya menggunakan implementasi default algoritma k-means clustering untuk Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Ini bekerja dengan data numerik saja. Jadi pertanyaan saya: apakah benar …

3
Kapan harus menggunakan One Hot Encoding vs LabelEncoder vs DictVectorizor?
Saya telah membangun model dengan data kategorikal untuk sementara waktu sekarang dan ketika dalam situasi ini pada dasarnya saya menggunakan fungsi LabelEncoder scikit-learn untuk mengubah data ini sebelum membangun model. Saya mengerti perbedaan di antara OHE, LabelEncoderdan DictVectorizordalam hal apa yang mereka lakukan terhadap data, tetapi yang tidak jelas bagi …

3
Bagaimana menggabungkan fitur input kategoris dan kontinu untuk pelatihan jaringan saraf
Misalkan kita memiliki dua jenis fitur input, kategorikal dan kontinu. Data kategorikal dapat direpresentasikan sebagai kode satu-panas A, sedangkan data kontinu hanyalah vektor B dalam ruang dimensi-N. Tampaknya hanya menggunakan concat (A, B) bukan pilihan yang baik karena A, B adalah jenis data yang sama sekali berbeda. Misalnya, tidak seperti …


1
Fitur penting dengan fitur kategoritas kardinalitas tinggi untuk regresi (variabel dependen numerik)
Saya mencoba menggunakan fitur penting dari Random Forests untuk melakukan beberapa pilihan fitur empiris untuk masalah regresi di mana semua fitur bersifat kategoris dan banyak dari mereka memiliki banyak tingkatan (pada urutan 100-1000). Mengingat bahwa pengodean satu-panas membuat variabel dummy untuk setiap level, kepentingan fitur adalah untuk setiap level dan …

3
Konversi massal kolom kategorikal dalam Pandas (bukan penyandian satu panas)
Saya memiliki bingkai data panda dengan banyak kolom kategori, yang saya rencanakan untuk digunakan di pohon keputusan dengan scikit-belajar. Saya perlu mengubahnya menjadi nilai numerik (bukan satu vektor panas). Saya dapat melakukannya dengan LabelEncoder dari scikit-learn. Masalahnya ada terlalu banyak, dan saya tidak ingin mengonversinya secara manual. Apa yang akan …


3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Bagaimana mengkonversi data kategorikal menjadi data numerik di Pyspark
Saya menggunakan notebook Ipython untuk bekerja dengan aplikasi pyspark. Saya memiliki file CSV dengan banyak kolom kategorikal untuk menentukan apakah pendapatan berada di bawah atau di atas kisaran 50k. Saya ingin melakukan algoritma klasifikasi mengambil semua input untuk menentukan kisaran pendapatan. Saya perlu membuat kamus variabel untuk memetakan variabel dan …

2
Opsi Penanganan Fitur Catboost (pengaturan CTR)?
Saya bekerja dengan dataset dengan sejumlah besar fitur kategorikal (> 80%) memprediksi variabel target kontinu (yaitu Regresi). Saya telah membaca sedikit tentang cara menangani fitur-fitur kategorikal. Dan belajar bahwa pengkodean satu-panas yang telah saya gunakan di masa lalu adalah ide yang sangat buruk terutama ketika datang ke banyak fitur kategorikal …

3
Bahasa terbaik untuk komputasi ilmiah [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Bagaimana saya bisa melakukan klasifikasi dengan data kategorikal yang tidak diperbaiki?
Saya memiliki masalah klasifikasi dengan data kategorikal dan numerik. Masalah yang saya hadapi adalah bahwa data kategorikal saya tidak diperbaiki, itu berarti bahwa kandidat baru yang labelnya ingin saya prediksi mungkin memiliki kategori baru yang tidak diamati sebelumnya. Misalnya, jika data kategorikal saya adalah sex, satu-satunya label yang mungkin adalah …

3
Hubungan antara belit dalam matematika dan CNN
Saya sudah membaca penjelasan konvolusi dan memahaminya sampai batas tertentu. Adakah yang bisa membantu saya memahami bagaimana operasi ini berhubungan dengan konvolusi dalam Jaring Saraf Konvolusional? Apakah fungsi seperti filter gyang menerapkan bobot?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.