Pertanyaan yang diberi tag «cart»

'Klasifikasi Dan Pohon Regresi'. CART adalah teknik pembelajaran mesin yang populer, dan membentuk dasar untuk teknik seperti hutan acak dan implementasi umum dari mesin pendorong gradien.

2
Praktik terbaik untuk pengkodean fitur kategorikal untuk Pohon Keputusan?
Ketika mengkode fitur kategorikal untuk regresi linier, ada aturan: jumlah boneka harus kurang dari jumlah total level (untuk menghindari kolinearitas). Apakah ada aturan yang sama untuk Pohon Keputusan (dikantongi, dikuatkan)? Saya menanyakan hal ini karena praktik standar dalam Python tampaknya adalah memperluas nlevel menjadi nboneka (sklearns ' OneHotEncoderatau Pandas' pd.get_dummies) …

3
mengapa metode peningkatan sensitif terhadap outlier
Saya menemukan banyak artikel yang menyatakan bahwa metode peningkatan sensitif terhadap outlier, tetapi tidak ada artikel yang menjelaskan mengapa. Dalam pengalaman saya, pencilan buruk untuk algoritma pembelajaran mesin, tetapi mengapa meningkatkan metode dipilih sebagai sangat sensitif? Bagaimana algoritma berikut akan memberi peringkat dalam hal sensitivitas terhadap pencilan: boost-tree, hutan acak, …


1
Perbedaan dalam implementasi pemisahan biner di pohon keputusan
Saya ingin tahu tentang implementasi praktis dari pemisahan biner dalam pohon keputusan - yang berkaitan dengan tingkat prediktor kategorikal .XjXjX{j} Secara khusus, saya sering akan menggunakan semacam skema pengambilan sampel (misalnya mengantongi, oversampling dll) ketika membangun model prediksi menggunakan pohon keputusan - untuk meningkatkan akurasi dan stabilitas prediksi. Selama rutinitas …

2
Algoritma pembelajaran mesin untuk data panel
Dalam pertanyaan ini - Apakah ada metode untuk membangun pohon keputusan yang memperhitungkan prediktor terstruktur / hierarkis / multilevel? - mereka menyebutkan metode data panel untuk pohon. Apakah ada metode data panel khusus untuk mendukung Mesin Vector dan Jaringan Saraf Tiruan? Jika demikian, dapatkah Anda mengutip beberapa makalah untuk algoritme …

2
Apakah Random Forests menunjukkan bias prediksi?
Saya pikir ini adalah pertanyaan langsung, meskipun alasan di balik mengapa atau mengapa tidak. Alasan saya bertanya adalah bahwa saya baru-baru ini menulis implementasi RF saya sendiri dan meskipun berkinerja baik, kinerjanya tidak sebaik yang saya harapkan (berdasarkan set data kompetisi Prediksi Kualitas Foto Kaggle , skor kemenangan dan beberapa …

2
Pohon Keputusan dan Regresi - Dapatkah nilai prediksi berada di luar kisaran data pelatihan?
Dalam hal pohon keputusan, dapatkah nilai yang diprediksi berada di luar kisaran data pelatihan? Sebagai contoh, jika rentang set data pelatihan dari variabel target adalah 0-100, ketika saya membuat model dan menerapkannya pada hal lain, dapatkah nilai saya menjadi -5? atau 150? Mengingat bahwa pemahaman saya tentang regresi pohon keputusan …


3
Model klasifikasi untuk prediksi peringkat film
Saya agak baru dalam penambangan data, dan saya sedang mengerjakan model klasifikasi untuk prediksi peringkat film. Saya telah mengumpulkan set data dari IMDB, dan saya berencana untuk menggunakan pohon keputusan dan pendekatan tetangga terdekat untuk model saya. Saya ingin tahu alat penambangan data mana yang tersedia secara bebas yang dapat …

2
MCMC pengambilan sampel ruang pohon keputusan vs. hutan acak
Sebuah hutan random adalah kumpulan pohon keputusan dibentuk oleh acak memilih hanya fitur tertentu untuk membangun setiap pohon dengan (dan kadang-kadang mengantongi data training). Tampaknya mereka belajar dan menggeneralisasi dengan baik. Adakah yang melakukan pengambilan sampel MCMC pada ruang pohon keputusan atau membandingkannya dengan hutan acak? Saya tahu mungkin lebih …

2
Mengorganisir pohon klasifikasi (dalam rpart) ke dalam seperangkat aturan?
Apakah ada cara yang pernah pohon klasifikasi kompleks dibangun menggunakan rpart (dalam R), untuk mengatur aturan keputusan yang dihasilkan untuk setiap kelas? Jadi alih-alih mendapatkan satu pohon besar, kita mendapatkan seperangkat aturan untuk masing-masing kelas? (jika demikian, bagaimana?) Berikut adalah contoh kode sederhana untuk menunjukkan contoh di: fit <- rpart(Kyphosis …
11 r  classification  cart  rpart 

3
Apakah ada perpustakaan yang tersedia untuk metode seperti CART menggunakan prediktor & respons jarang?
Saya bekerja dengan beberapa set data besar menggunakan paket gbm di R. Baik matriks prediktor saya dan vektor respons saya cukup jarang (yaitu sebagian besar entri adalah nol). Saya berharap untuk membangun pohon keputusan menggunakan algoritma yang mengambil keuntungan dari jarangnya ini, seperti yang dilakukan di sini ). Dalam makalah …

2
Mengapa pohon kantong / pohon hutan acak memiliki bias yang lebih tinggi daripada pohon keputusan tunggal?
Jika kita mempertimbangkan pohon keputusan yang tumbuh penuh (yaitu pohon keputusan yang tidak ditandai), ia memiliki varian yang tinggi dan bias yang rendah. Hutan Bagging dan Random menggunakan model varians tinggi ini dan menggabungkannya untuk mengurangi varians dan dengan demikian meningkatkan akurasi prediksi. Baik Hutan Bagging dan Acak menggunakan sampling …

1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Bagaimana cara menggunakan tunggul keputusan sebagai pembelajar yang lemah di Adaboost?
Saya ingin menerapkan Adaboost menggunakan Decision Stump. Benarkah membuat banyak tunggakan keputusan seperti fitur kumpulan data kami di setiap iterasi Adaboost? Misalnya, jika saya memiliki kumpulan data dengan 24 fitur, haruskah saya memiliki 24 class stump classifier di setiap iterasi? Atau haruskah saya secara acak memilih beberapa fitur dan membuat …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.