Pertanyaan yang diberi tag «python»

Gunakan untuk pertanyaan ilmu data terkait dengan bahasa pemrograman Python. Tidak dimaksudkan untuk pertanyaan koding umum (-> stackoverflow).

8
Apakah Python cocok untuk data besar
Saya membaca di posting ini Apakah bahasa R cocok untuk Big Data yang merupakan data besar 5TB, dan sementara itu melakukan pekerjaan yang baik dalam memberikan informasi tentang kelayakan bekerja dengan jenis data di Rdalamnya memberikan informasi yang sangat sedikit tentang Python. Saya bertanya-tanya apakah Pythondapat bekerja dengan data sebanyak …
14 bigdata  python 


3
Apa arti dari fungsi model.predict dari Keras?
Saya telah membangun model LSTM untuk memprediksi pertanyaan duplikat pada dataset resmi Quora. Label uji adalah 0 atau 1. 1 menunjukkan pasangan pertanyaan duplikat. Setelah membangun model menggunakan model.fit, saya menguji model menggunakan model.predictpada data uji. Outputnya adalah array nilai seperti di bawah ini: [ 0.00514298] [ 0.15161049] [ 0.27588326] …

1
XGBRegressor vs xgboost.train perbedaan kecepatan yang sangat besar?
Jika saya melatih model saya menggunakan kode berikut: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) selesai dalam waktu sekitar 1 menit. Jika saya melatih model saya menggunakan metode …

1
Heatmap pada peta dengan Python
Mode Analytics memiliki fitur peta panas yang bagus ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Tetapi tidak kondusif untuk membandingkan peta (hanya satu per laporan). Apa yang mereka perbolehkan adalah data dapat ditarik dengan mudah ke dalam notebook python yang dibungkus. Dan kemudian gambar apa pun dalam python dapat dengan mudah ditambahkan ke laporan. …

1
Konversikan panda kolom int ke stempel waktu tipe data
Saya memiliki kerangka data yang antara lain berisi kolom jumlah milidetik yang dilalui sejak 1970-1-1. Saya perlu mengubah kolom ints ini menjadi data timestamp, jadi saya akhirnya dapat mengonversinya menjadi kolom data datetime dengan menambahkan seri kolom timestamp ke seri yang seluruhnya terdiri dari nilai datetime untuk 1970-1-1. Saya tahu …

5
Fitur penting dengan scikit-learn Random Forest menunjukkan Standar Deviasi yang sangat tinggi
Saya menggunakan scikit-learn Random Forest Classifier dan saya ingin merencanakan kepentingan fitur seperti dalam contoh ini . Namun hasil saya benar-benar berbeda, dalam arti fitur penting standar deviasi hampir selalu lebih besar daripada fitur penting itu sendiri (lihat gambar terlampir). Mungkinkah memiliki perilaku seperti itu, atau apakah saya melakukan beberapa …

1
Prakiraan Seri-Waktu multi-dimensi dan multivarian (RNN / LSTM) Keras
Saya telah mencoba memahami bagaimana cara merepresentasikan dan membentuk data untuk membuat perkiraan deret waktu multidimensional dan multivarian menggunakan Keras (atau TensorFlow) tetapi saya masih sangat tidak jelas setelah membaca banyak posting blog / tutorial / dokumentasi tentang cara menyajikan data dalam bentuk yang benar (sebagian besar contoh sedikit kurang …
12 python  keras  rnn  lstm 

2
Kehilangan validasi dan akurasi tetap konstan
Saya mencoba menerapkan makalah ini pada serangkaian gambar medis. Saya melakukannya di Keras. Jaringan pada dasarnya terdiri dari 4 lapisan conv dan max-pool diikuti oleh lapisan yang sepenuhnya terhubung dan classifier soft max. Sejauh yang saya tahu, saya telah mengikuti arsitektur yang disebutkan di koran. Namun, validasi kehilangan dan akurasi …

3
Bantuan tentang NER di NLTK
Saya telah bekerja di NLTK untuk sementara menggunakan Python. Masalah yang saya hadapi adalah tidak ada bantuan yang tersedia untuk melatih NER di NLTK dengan data khusus saya. Mereka telah menggunakan MaxEnt dan melatihnya pada ACE corpus. Saya telah mencari di web banyak tetapi saya tidak dapat menemukan cara yang …

1
Berapa banyak sel LSTM yang harus saya gunakan?
Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


2
Pengurangan dimensionalitas yang efisien untuk dataset besar
Saya memiliki dataset dengan baris ~ 1M dan ~ fitur 500K jarang. Saya ingin mengurangi dimensi ke suatu tempat dalam urutan fitur padat 1K-5K. sklearn.decomposition.PCAtidak berfungsi pada data yang jarang, dan saya sudah mencoba menggunakan sklearn.decomposition.TruncatedSVDtetapi mendapatkan kesalahan memori dengan cukup cepat. Apa pilihan saya untuk pengurangan dimensi efisien pada …

3
Ganti semua nilai numerik dalam bingkai data pyspark dengan nilai konstan
Pertimbangkan kerangka data pyspark yang terdiri dari elemen 'nol' dan elemen numerik. Secara umum, elemen numerik memiliki nilai yang berbeda. Bagaimana mungkin untuk mengganti semua nilai numerik dari dataframe dengan nilai numerik yang konstan (misalnya dengan nilai 1)? Terima kasih sebelumnya! Contoh untuk kerangka data pyspark: 123c10,04- 1n u l …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.