Ilmu Data

T&J untuk profesional sains Data, spesialis Pembelajaran Mesin, dan mereka yang tertarik untuk belajar lebih banyak tentang bidang ini

7
Proses terorganisir untuk membersihkan data
Dari sedikit berkecimpung dengan ilmu data menggunakan R, saya menyadari bahwa membersihkan data yang buruk adalah bagian yang sangat penting dalam mempersiapkan data untuk analisis. Apakah ada praktik atau proses terbaik untuk membersihkan data sebelum memprosesnya? Jika demikian, apakah ada alat otomatis atau semi-otomatis yang menerapkan beberapa praktik terbaik ini?
34 r  data-cleaning 


5
Membuka file 20GB untuk analisis dengan panda
Saat ini saya mencoba untuk membuka file dengan panda dan python untuk tujuan pembelajaran mesin, akan ideal bagi saya untuk memiliki semuanya dalam DataFrame. Sekarang file tersebut berukuran 18GB dan RAM saya 32 GB tetapi saya terus mendapatkan kesalahan memori. Dari pengalaman Anda, mungkinkah? Jika tidak, apakah Anda tahu cara …

3
Multi GPU dalam keras
Bagaimana Anda bisa memprogram di perpustakaan keras (atau tensorflow) untuk mempartisi pelatihan pada beberapa GPU? Katakanlah Anda menggunakan instance Amazon ec2 yang memiliki 8 GPU dan Anda ingin menggunakan semuanya untuk berlatih lebih cepat, tetapi kode Anda hanya untuk satu CPU atau GPU.


5
Apa kasus penggunaan untuk Apache Spark vs Hadoop
Dengan Hadoop 2.0 dan BENANG Hadoop seharusnya tidak lagi terikat hanya solusi pengurangan peta. Dengan kemajuan itu, apa kasus penggunaan untuk Apache Spark vs Hadoop mempertimbangkan keduanya duduk di atas HDFS? Saya sudah membaca dokumentasi pendahuluan untuk Spark, tetapi saya ingin tahu apakah ada orang yang menemukan masalah yang lebih …

1
Makalah: Apa perbedaan antara Normalisasi Lapisan, Normalisasi Batch Berulang (2016), dan Batch Normalisasi RNN (2015)?
Jadi, baru-baru ini ada kertas Normalisasi Layer . Ada juga implementasi di Keras. Tapi saya ingat ada makalah yang berjudul Normalisasi Batch Berulang (Cooijmans, 2016) dan Batch Normalisasi Jaringan Saraf Berulang (Laurent, 2015). Apa perbedaan antara ketiganya? Ada bagian Pekerjaan Terkait ini yang saya tidak mengerti: Normalisasi batch sebelumnya telah …



3
Dalam softmax classifier, mengapa menggunakan fungsi exp untuk melakukan normalisasi?
Mengapa menggunakan softmax sebagai lawan dari normalisasi standar? Di area komentar dari jawaban teratas dari pertanyaan ini, @Kilian Batzner mengajukan 2 pertanyaan yang juga membingungkan saya. Sepertinya tidak ada yang memberi penjelasan kecuali manfaat numerik. Saya mendapatkan alasan untuk menggunakan Cross-Entropy Loss, tetapi bagaimana hubungannya dengan softmax? Anda mengatakan "fungsi …



2
Apa itu Ground Truth?
Dalam konteks Pembelajaran Mesin , saya telah melihat istilah Ground Truth banyak digunakan. Saya telah mencari banyak dan menemukan definisi berikut di Wikipedia : Dalam pembelajaran mesin, istilah "kebenaran dasar" mengacu pada akurasi klasifikasi set pelatihan untuk teknik pembelajaran yang diawasi. Ini digunakan dalam model statistik untuk membuktikan atau menyangkal …

5
Konversi daftar daftar menjadi Bingkai Data Pandas
Saya mencoba mengonversi daftar daftar yang terlihat seperti yang berikut ini menjadi Bingkai Data Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', …
30 pandas 

1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.