Pertanyaan yang diberi tag «scikit-learn»

Scikit-belajar adalah modul Python yang terdiri dari alat sederhana dan efisien untuk pembelajaran mesin, penambangan data dan analisis data. Itu dibangun di atas NumPy, SciPy, dan matplotlib. Ini didistribusikan di bawah lisensi 3-Clause BSD.

1
Berapa banyak sel LSTM yang harus saya gunakan?
Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang ditentukan oleh: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Pengurangan dimensionalitas yang efisien untuk dataset besar
Saya memiliki dataset dengan baris ~ 1M dan ~ fitur 500K jarang. Saya ingin mengurangi dimensi ke suatu tempat dalam urutan fitur padat 1K-5K. sklearn.decomposition.PCAtidak berfungsi pada data yang jarang, dan saya sudah mencoba menggunakan sklearn.decomposition.TruncatedSVDtetapi mendapatkan kesalahan memori dengan cukup cepat. Apa pilihan saya untuk pengurangan dimensi efisien pada …


2
Apakah scikit-belajar menggunakan regularisasi secara default?
Saya baru saja memasang kurva logistik ke beberapa data palsu. Saya membuat data dasarnya fungsi langkah. data = -------------++++++++++++++ Tetapi ketika saya melihat kurva yang pas, kemiringannya sangat kecil. Fungsi yang meminimalkan fungsi biaya dengan asumsi cross entropy adalah fungsi step. Mengapa itu tidak terlihat seperti fungsi langkah? Apakah ada …

3
Apakah ada model bahasa out-of-the-box yang bagus untuk python?
Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Bagaimana cara menggunakan Scikit-Learn Label Propagation pada data terstruktur grafik?
Sebagai bagian dari penelitian saya, saya tertarik untuk melakukan propagasi label pada grafik. Saya terutama tertarik pada dua metode ini: Xiaojin Zhu dan Zoubin Ghahramani. Belajar dari data berlabel dan tidak berlabel dengan propagasi label. Laporan Teknis CMU-CALD-02-107, Universitas Carnegie Mellon, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, …

3
Apa perbedaan antara vektorizer hashing dan vektorizer tfidf
Saya mengubah kumpulan dokumen teks menjadi vektor kata untuk setiap dokumen. Saya sudah mencoba ini menggunakan TfidfVectorizer dan HashingVectorizer Saya mengerti bahwa a HashingVectorizertidak mempertimbangkan IDFskor seperti halnya a TfidfVectorizer. Alasan saya masih bekerja dengan a HashingVectorizeradalah fleksibilitas yang diberikannya ketika berhadapan dengan dataset besar, seperti yang dijelaskan di sini …

1
scikit-pelajari parameter n_jobs pada penggunaan CPU & memori
Dalam kebanyakan estimator pada scikit-belajar, ada n_jobsparameter dalam fit/ predictmetode untuk menciptakan lapangan kerja paralel menggunakan joblib. Saya perhatikan bahwa pengaturan untuk -1membuat hanya 1 proses Python dan memaksimalkan core, menyebabkan penggunaan CPU mencapai 2500% di atas. Ini sangat berbeda dari pengaturan ke beberapa integer positif> 1, yang menciptakan banyak …

3
Bahasa terbaik untuk komputasi ilmiah [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian besar bahasa memiliki sejumlah perpustakaan komputasi ilmiah yang tersedia. Python memiliki Scipy …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Bagaimana cara menyandikan kelas dengan 24.000 kategori?
Saat ini saya sedang mengerjakan model regresi logistik untuk genomik. Salah satu bidang input yang ingin saya sertakan sebagai kovariat adalah genes. Ada sekitar 24.000 gen yang dikenal. Ada banyak fitur dengan tingkat variabilitas dalam biologi komputasi ini dan diperlukan ratusan ribu sampel. Jika saya LabelEncoder()gen 24K itu dan kemudian …

3
Prediksi waktu panggilan terbaik
Saya memiliki set data termasuk satu set pelanggan di berbagai kota di California, waktu panggilan untuk setiap pelanggan, dan status panggilan (Benar jika pelanggan menjawab panggilan dan Salah jika pelanggan tidak menjawab). Saya harus menemukan waktu yang tepat untuk menelepon pelanggan di masa depan sehingga kemungkinan menjawab panggilan tinggi. Jadi, …


2
Berapa banyak waktu yang diperlukan untuk mengklasifikasi scikit?
Saya berencana untuk menggunakan classifier scikit linear support vector machine (SVM) untuk klasifikasi teks pada corpus yang terdiri dari 1 juta dokumen berlabel. Apa yang saya rencanakan untuk lakukan adalah, ketika pengguna memasukkan beberapa kata kunci, classifier pertama akan mengklasifikasikannya dalam kategori, dan kemudian pencarian informasi berikutnya akan terjadi di …

2
Apa metode yang paling efisien untuk optimasi hyperparameter di scikit-learn?
Gambaran umum proses optimisasi hyperparameter di scikit-learn ada di sini . Pencarian kisi-kisi yang mendalam akan menemukan set hiperparameter yang optimal untuk suatu model. Downside adalah bahwa pencarian grid lengkap lambat. Pencarian acak lebih cepat dari pencarian kotak tetapi memiliki variasi yang tidak perlu tinggi. Ada juga strategi tambahan dalam …

2
Apakah max_depth dalam scikit setara dengan pemangkasan di pohon keputusan?
Saya menganalisis classifier yang dibuat menggunakan pohon keputusan. Ada parameter tuning yang disebut max_depth di pohon keputusan scikit. Apakah ini setara dengan pemangkasan pohon keputusan? Jika tidak, bagaimana saya bisa memangkas pohon keputusan menggunakan scikit? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.