Pertanyaan yang diberi tag «python»

Gunakan untuk pertanyaan ilmu data terkait dengan bahasa pemrograman Python. Tidak dimaksudkan untuk pertanyaan koding umum (-> stackoverflow).


1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Mengurangi parameter XGBoost
XGBoost telah melakukan pekerjaan dengan baik, ketika berurusan dengan variabel dependen kategoris dan kontinu. Tapi, bagaimana cara memilih parameter yang dioptimalkan untuk masalah XGBoost? Ini adalah bagaimana saya menerapkan parameter untuk masalah Kaggle baru-baru ini: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, …
27 r  python  xgboost 


7
Bagaimana cara mengkloning lingkungan kerja Python di komputer lain?
Saya mengembangkan model pembelajaran mesin dengan Python (Anaconda + Flask) di workstation saya dan semuanya berjalan dengan baik. Kemudian, saya mencoba untuk mengirimkan program ini ke komputer lain di mana tentu saja saya mencoba untuk mengatur lingkungan yang sama, tetapi program tersebut gagal berjalan. Saya menyalin program ke mesin lain …
26 python  anaconda 

1
PyTorch vs. Tensorflow Fold
Baik PyTorch dan Tensorflow Fold adalah kerangka pembelajaran yang dalam yang dimaksudkan untuk menangani situasi di mana data input memiliki panjang atau dimensi yang tidak seragam (yaitu, situasi di mana grafik dinamis berguna atau dibutuhkan). Saya ingin tahu bagaimana mereka membandingkan, dalam arti paradigma yang mereka andalkan (misalnya batch dinamis) …


6
Teknik pembelajaran mesin untuk memperkirakan usia pengguna berdasarkan situs Facebook yang mereka sukai
Saya memiliki database dari aplikasi Facebook saya dan saya mencoba menggunakan pembelajaran mesin untuk memperkirakan usia pengguna berdasarkan situs Facebook yang mereka sukai. Ada tiga karakteristik penting dari basis data saya: distribusi usia di set pelatihan saya (12k jumlah pengguna) condong ke pengguna yang lebih muda (yaitu saya memiliki 1157 …

4
Apakah ada cara mudah untuk menjalankan panda. DataFrame.isin secara paralel?
Saya memiliki program pemodelan dan penilaian yang banyak menggunakan DataFrame.isin fungsi panda, mencari melalui daftar facebook "seperti" catatan pengguna individu untuk masing-masing dari beberapa ribu halaman tertentu. Ini adalah bagian yang paling memakan waktu dari program, lebih dari pemodelan atau penilaian, hanya karena hanya berjalan pada satu inti sedangkan sisanya …

4
Word2Vec untuk Pengakuan Entitas Bernama
Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi yang layak atau tutorial yang layak untuk jenis model itu. Karena saya bekerja …

5
Gambar VM untuk proyek ilmu data
Karena ada banyak alat yang tersedia untuk tugas-tugas ilmu data, dan rumit untuk menginstal semuanya dan membangun sistem yang sempurna. Apakah ada gambar Linux / Mac OS dengan Python, R dan alat sains data open-source lainnya diinstal dan tersedia untuk digunakan orang sekarang juga? Ubuntu atau OS ringan dengan versi …
24 python  r  tools 

4
Scikit-belajar: Mendapatkan SGDClassifier untuk memprediksi serta Regresi Logistik
Cara untuk melatih Regresi Logistik adalah dengan menggunakan keturunan gradien stokastik, yang scikit-belajar menawarkan antarmuka. Apa yang ingin saya lakukan adalah mengambil scikit-belajar ini SGDClassifier dan memilikinya skor yang sama sebagai Regresi Logistik di sini . Namun, saya harus kehilangan beberapa peningkatan pembelajaran mesin, karena skor saya tidak setara. Ini …

3
Praktik terbaik untuk menyimpan model pembelajaran mesin Python
Apa praktik terbaik untuk menyimpan, menyimpan, dan berbagi model pembelajaran mesin? Dalam Python, kita biasanya menyimpan representasi biner dari model, menggunakan acar atau joblib. Model, dalam kasus saya, bisa ~ 100Mo besar. Selain itu, joblib dapat menyimpan satu model ke banyak file kecuali Anda menyetel compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). Tetapi …

4
Apakah perlu untuk membakukan data Anda sebelum pengelompokan?
Apakah perlu untuk membakukan data Anda sebelum cluster? Dalam contoh dari scikit learntentang DBSCAN, di sini mereka melakukan ini di baris: X = StandardScaler().fit_transform(X) Tapi saya tidak mengerti mengapa itu perlu. Bagaimanapun, pengelompokan tidak mengasumsikan distribusi data tertentu - itu adalah metode pembelajaran yang tidak diawasi sehingga tujuannya adalah untuk …

5
Menghitung KL Divergence dengan Python
Saya agak baru dalam hal ini dan tidak bisa mengatakan saya memiliki pemahaman yang lengkap tentang konsep-konsep teoritis di balik ini. Saya mencoba untuk menghitung KL Divergence antara beberapa daftar poin dengan Python. Saya menggunakan http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html untuk mencoba dan melakukan ini. Masalah yang saya hadapi adalah bahwa nilai yang dikembalikan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.