Pertanyaan yang diberi tag «scikit-learn»

Scikit-belajar adalah modul Python yang terdiri dari alat sederhana dan efisien untuk pembelajaran mesin, penambangan data dan analisis data. Itu dibangun di atas NumPy, SciPy, dan matplotlib. Ini didistribusikan di bawah lisensi 3-Clause BSD.

8
Perbedaan antara pas dan pas_transformasi dalam model scikit_learn?
Saya pemula dalam ilmu data dan saya tidak mengerti perbedaan antara fitdan fit_transformmetode dalam scikit-belajar. Adakah yang bisa menjelaskan mengapa kita perlu mengubah data? Apa artinya mencocokkan model pada data pelatihan dan mentransformasikannya untuk menguji data? Apakah itu berarti misalnya mengubah variabel kategori menjadi angka dalam kereta dan mengubah set …

3
Kapan harus menggunakan One Hot Encoding vs LabelEncoder vs DictVectorizor?
Saya telah membangun model dengan data kategorikal untuk sementara waktu sekarang dan ketika dalam situasi ini pada dasarnya saya menggunakan fungsi LabelEncoder scikit-learn untuk mengubah data ini sebelum membangun model. Saya mengerti perbedaan di antara OHE, LabelEncoderdan DictVectorizordalam hal apa yang mereka lakukan terhadap data, tetapi yang tidak jelas bagi …


6
string sebagai fitur di pohon keputusan / hutan acak
Saya melakukan beberapa masalah pada aplikasi pohon keputusan / hutan acak. Saya mencoba menyesuaikan masalah yang memiliki angka dan juga string (seperti nama negara) sebagai fitur. Sekarang perpustakaan, scikit-learn hanya mengambil angka sebagai parameter, tapi saya ingin menyuntikkan string dan mereka membawa banyak pengetahuan. Bagaimana saya menangani skenario seperti itu? …



1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Memahami predict_proba dari MultiOutputClassifier
Saya mengikuti contoh ini di situs scikit-learn untuk melakukan klasifikasi multioutput dengan model Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = np.vstack((y1, …


4
Scikit-belajar: Mendapatkan SGDClassifier untuk memprediksi serta Regresi Logistik
Cara untuk melatih Regresi Logistik adalah dengan menggunakan keturunan gradien stokastik, yang scikit-belajar menawarkan antarmuka. Apa yang ingin saya lakukan adalah mengambil scikit-belajar ini SGDClassifier dan memilikinya skor yang sama sebagai Regresi Logistik di sini . Namun, saya harus kehilangan beberapa peningkatan pembelajaran mesin, karena skor saya tidak setara. Ini …

5
Menghitung KL Divergence dengan Python
Saya agak baru dalam hal ini dan tidak bisa mengatakan saya memiliki pemahaman yang lengkap tentang konsep-konsep teoritis di balik ini. Saya mencoba untuk menghitung KL Divergence antara beberapa daftar poin dengan Python. Saya menggunakan http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html untuk mencoba dan melakukan ini. Masalah yang saya hadapi adalah bahwa nilai yang dikembalikan …


3
Perbedaan antara OrdinalEncoder dan LabelEncoder
Saya membaca dokumentasi resmi scikit-belajar belajar setelah membaca buku tentang ML dan menemukan hal-hal berikut: Dalam Dokumentasi itu diberikan tentang sklearn.preprocessing.OrdinalEncoder()sedangkan dalam buku itu diberikan tentang sklearn.preprocessing.LabelEncoder(), ketika saya memeriksa fungsionalitasnya itu tampak sama bagi saya. Bisakah Seseorang tolong beri tahu saya perbedaan antara keduanya?

3
StandardScaler sebelum dan sesudah memisahkan data
Ketika saya membaca tentang menggunakan StandardScaler, sebagian besar rekomendasi mengatakan bahwa Anda harus menggunakan StandardScaler sebelum membagi data menjadi kereta / tes, tetapi ketika saya memeriksa beberapa kode yang diposting online (menggunakan sklearn) ada dua kegunaan utama. 1- Menggunakan StandardScalerpada semua data. Misalnya from sklearn.preprocessing import StandardScaler sc = StandardScaler() …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.