Pertanyaan yang diberi tag «data-cleaning»

Pembersihan data merupakan langkah awal untuk analisis statistik di mana kumpulan data diedit untuk memperbaiki kesalahan dan memasukkannya ke dalam bentuk yang sesuai untuk diproses oleh perangkat lunak statistik.

6
Bagaimana saya bisa mengubah nama dalam set data rahasia untuk membuatnya anonim, tetapi mempertahankan beberapa karakteristik nama?
Motivasi Saya bekerja dengan kumpulan data yang berisi informasi pengenal pribadi (PII) dan kadang-kadang perlu berbagi bagian dari dataset dengan pihak ketiga, dengan cara yang tidak mengekspos PII dan membuat majikan saya bertanggung jawab. Pendekatan kami yang biasa di sini adalah menahan data sepenuhnya, atau dalam beberapa kasus mengurangi resolusinya; …

7
Proses terorganisir untuk membersihkan data
Dari sedikit berkecimpung dengan ilmu data menggunakan R, saya menyadari bahwa membersihkan data yang buruk adalah bagian yang sangat penting dalam mempersiapkan data untuk analisis. Apakah ada praktik atau proses terbaik untuk membersihkan data sebelum memprosesnya? Jika demikian, apakah ada alat otomatis atau semi-otomatis yang menerapkan beberapa praktik terbaik ini?
34 r  data-cleaning 

1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


4
Bagaimana cara membuat anotasi dokumen teks dengan meta-data?
Memiliki banyak dokumen teks (dalam bahasa alami, tidak terstruktur), apa cara yang memungkinkan untuk membuat anotasi dengan beberapa meta-data semantik? Misalnya, pertimbangkan dokumen pendek: I saw the company's manager last day. Untuk dapat mengekstraksi informasi darinya, harus dianotasi dengan data tambahan agar tidak ambigu. Proses menemukan meta-data tersebut tidak dipertanyakan, …



4
Bagaimana cara melakukan pencocokan alamat pos fuzzy?
Saya ingin tahu cara mencocokkan alamat pos ketika formatnya berbeda atau ketika salah satu dari mereka salah eja. Sejauh ini saya telah menemukan solusi yang berbeda tetapi saya pikir mereka sudah cukup tua dan tidak terlalu efisien. Saya yakin ada beberapa metode yang lebih baik, jadi jika Anda memiliki referensi …

5
Apakah pustaka R dan / atau Python modern membuat SQL usang?
Saya bekerja di kantor di mana SQL Server adalah tulang punggung dari semua yang kami lakukan, dari pemrosesan data hingga pembersihan hingga munging. Kolega saya mengkhususkan diri dalam penulisan fungsi kompleks dan prosedur tersimpan untuk memproses data yang masuk secara metodis sehingga dapat distandarisasi dan digunakan dalam laporan, visualisasi, dan …
14 python  r  data-cleaning  data  sql 

1
Konversikan panda kolom int ke stempel waktu tipe data
Saya memiliki kerangka data yang antara lain berisi kolom jumlah milidetik yang dilalui sejak 1970-1-1. Saya perlu mengubah kolom ints ini menjadi data timestamp, jadi saya akhirnya dapat mengonversinya menjadi kolom data datetime dengan menambahkan seri kolom timestamp ke seri yang seluruhnya terdiri dari nilai datetime untuk 1970-1-1. Saya tahu …


3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Berapa banyak data yang cukup untuk melatih model pembelajaran mesin saya?
Saya telah bekerja pada pembelajaran mesin dan bioinformatika untuk sementara waktu, dan hari ini saya berbicara dengan seorang kolega tentang masalah umum utama dari penambangan data. Rekan saya (yang ahli dalam pembelajaran mesin) mengatakan bahwa, menurut pendapatnya, aspek praktis yang paling penting dari pembelajaran mesin adalah bagaimana memahami apakah Anda …

3
Bahasa terbaik untuk komputasi ilmiah [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.