Pertanyaan yang diberi tag «random-forest»

Hutan acak adalah pengklasifikasi pembelajaran mesin berdasarkan pemilihan subset variabel acak untuk setiap pohon dan menggunakan output pohon paling sering sebagai klasifikasi keseluruhan.

6
string sebagai fitur di pohon keputusan / hutan acak
Saya melakukan beberapa masalah pada aplikasi pohon keputusan / hutan acak. Saya mencoba menyesuaikan masalah yang memiliki angka dan juga string (seperti nama negara) sebagai fitur. Sekarang perpustakaan, scikit-learn hanya mengambil angka sebagai parameter, tapi saya ingin menyuntikkan string dan mereka membawa banyak pengetahuan. Bagaimana saya menangani skenario seperti itu? …

9
ValueError: Input berisi NaN, infinity atau nilai yang terlalu besar untuk dtype ('float32')
Saya mendapat ValueError saat memprediksi data uji menggunakan model RandomForest. Kode saya: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Kesalahan: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Bagaimana cara menemukan nilai buruk dalam dataset uji? Juga, saya …

1
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?
Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba menumbuhkan 500 pohon karena akan memakan waktu berjam-jam. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Kapan menggunakan Hutan Acak di atas SVM dan sebaliknya?
Ketika salah satu akan menggunakan Random Forestlebih SVMdan sebaliknya? Saya memahami itu cross-validationdan perbandingan model merupakan aspek penting dalam memilih model, tetapi di sini saya ingin belajar lebih banyak tentang aturan praktis dan heuristik dari dua metode. Dapatkah seseorang tolong jelaskan seluk-beluk, kekuatan, dan kelemahan pengklasifikasi serta masalah, yang paling …

3
Memahami predict_proba dari MultiOutputClassifier
Saya mengikuti contoh ini di situs scikit-learn untuk melakukan klasifikasi multioutput dengan model Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = np.vstack((y1, …

3
Mengapa kita membutuhkan XGBoost dan Random Forest?
Saya tidak jelas tentang beberapa konsep: XGBoost mengkonversi pembelajar yang lemah menjadi pembelajar yang kuat. Apa keuntungan melakukan ini? Menggabungkan banyak siswa yang lemah dan bukannya hanya menggunakan satu pohon? Hutan Acak menggunakan berbagai sampel dari pohon untuk membuat pohon. Apa keuntungan dari metode ini daripada hanya menggunakan pohon tunggal?

4
Apakah pakaian acak Forest?
Saya telah membaca tentang Hutan Acak tetapi saya tidak dapat menemukan jawaban pasti tentang masalah overfitting. Menurut kertas asli Breiman, mereka tidak boleh berpakaian berlebihan ketika menambah jumlah pohon di hutan, tetapi tampaknya tidak ada konsensus mengenai hal ini. Ini membuat saya agak bingung tentang masalah ini. Mungkin seseorang yang …



5
Pilih algoritma klasifikasi biner
Saya memiliki masalah klasifikasi biner: Sekitar 1000 sampel dalam set pelatihan 10 atribut, termasuk biner, numerik, dan kategorikal Algoritma mana yang merupakan pilihan terbaik untuk masalah jenis ini? Secara default saya akan mulai dengan SVM (pendahuluan memiliki nilai atribut nominal yang dikonversi ke fitur biner), karena dianggap yang terbaik untuk …

5
membuat peta panas seaborn lebih besar
Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk mencetak keseluruhan dfterlepas dari ukurannya atau …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Metode penilaian RandomForestClassifier OOB
Apakah implementasi hutan acak di scikit-belajar menggunakan akurasi rata-rata sebagai metode penilaian untuk memperkirakan kesalahan generalisasi dengan sampel out-of-bag? Ini tidak disebutkan dalam dokumentasi, tetapi metode skor () melaporkan akurasi rata-rata. Saya memiliki dataset yang sangat tidak seimbang, dan saya menggunakan AUC ROC sebagai metrik penilaian saya dalam pencarian kisi. …

1
Apakah pengambilan sampel bertingkat diperlukan (hutan acak, Python)?
Saya menggunakan Python untuk menjalankan model hutan acak pada dataset tidak seimbang saya (variabel target adalah kelas biner). Ketika membagi dataset pelatihan dan pengujian, saya kesulitan apakah akan menggunakan pengambilan sampel bertingkat (seperti kode yang ditunjukkan) atau tidak. Sejauh ini, saya mengamati dalam proyek saya bahwa kasus bertingkat akan mengarah …

1
Berapa banyak fitur untuk sampel menggunakan Hutan Acak
The Wikipedia halaman yang kutipan "The Elements of statistik Learning" kata: Biasanya, untuk masalah klasifikasi dengan fitur , ⌊ √halhalp fitur p ⌋digunakan di setiap pemisahan.⌊ hlm-√⌋⌊hal⌋\lfloor \sqrt{p}\rfloor Saya mengerti bahwa ini adalah tebakan berpendidikan yang cukup baik dan mungkin dikonfirmasi oleh bukti empiris, tetapi apakah ada alasan lain mengapa …

5
Fitur penting dengan scikit-learn Random Forest menunjukkan Standar Deviasi yang sangat tinggi
Saya menggunakan scikit-learn Random Forest Classifier dan saya ingin merencanakan kepentingan fitur seperti dalam contoh ini . Namun hasil saya benar-benar berbeda, dalam arti fitur penting standar deviasi hampir selalu lebih besar daripada fitur penting itu sendiri (lihat gambar terlampir). Mungkinkah memiliki perilaku seperti itu, atau apakah saya melakukan beberapa …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.