Pertanyaan yang diberi tag «cart»

'Klasifikasi Dan Pohon Regresi'. CART adalah teknik pembelajaran mesin yang populer, dan membentuk dasar untuk teknik seperti hutan acak dan implementasi umum dari mesin pendorong gradien.

1
Decision tree variabel (fitur) penskalaan dan variabel (fitur) normalisasi (tuning) diperlukan dalam implementasi yang mana?
Dalam banyak algoritme pembelajaran mesin, penskalaan fitur (penskalaan variabel, normalisasi) adalah langkah umum yang belum ada. Wikipedia - Penskalaan Fitur - pertanyaan ini hampir selesai. Pertanyaan # 41704 - Bagaimana dan mengapa kerja normalisasi dan penskalaan fitur berfungsi? Saya punya dua pertanyaan khusus sehubungan dengan Pohon Keputusan: Apakah ada implementasi …

1
Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?
Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Ukuran pohon dalam meningkatkan pohon gradien
Penguatan pohon gradien seperti yang diusulkan oleh Friedman menggunakan pohon keputusan dengan Jsimpul terminal (= daun) sebagai pelajar dasar. Ada beberapa cara untuk menumbuhkan pohon dengan Jsimpul-simpul yang tepat misalnya seseorang dapat menumbuhkan pohon tersebut dengan cara pertama yang dalam atau dengan cara pertama yang luas, ... Apakah ada cara …
10 r  cart  boosting 

1
Nilai variabel tersembunyi regresi linear R "bernilai"
Ini hanya contoh yang saya temui beberapa kali, jadi saya tidak punya data sampel. Menjalankan model regresi linier di R: a.lm = lm(Y ~ x1 + x2) x1adalah variabel kontinu. x2bersifat kategorikal dan memiliki tiga nilai, mis. "Rendah", "Sedang" dan "Tinggi". Namun output yang diberikan oleh R akan menjadi seperti: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Investigasi perbedaan antar populasi
Katakanlah kita memiliki sampel dari dua populasi: Adan B. Mari kita asumsikan populasi ini terbuat dari individu dan kami memilih untuk menggambarkan individu dalam hal fitur. Beberapa fitur ini bersifat kategorikal (misalnya apakah mereka mengemudi untuk bekerja?) Dan beberapa bersifat numerik (mis. Tingginya). Sebut saja fitur-fitur ini: . Kami mengumpulkan …

2
Apakah penaksir pohon SELALU bias?
Saya sedang mengerjakan pekerjaan rumah di Pohon Keputusan, dan salah satu pertanyaan yang harus saya jawab adalah "Mengapa estimator dibangun dari pohon yang bias, dan bagaimana mengantongi membantu mengurangi variansnya?". Sekarang, saya tahu bahwa model overfitted cenderung memiliki bias yang sangat rendah, karena mereka mencoba menyesuaikan semua poin data. Dan, …
9 cart  bias 

2
Apakah pohon CART menangkap interaksi di antara para prediktor?
Makalah ini mengklaim bahwa dalam CART, karena pemisahan biner dilakukan pada kovariat tunggal pada setiap langkah, semua pemisahan bersifat ortogonal dan oleh karena itu interaksi di antara kovariat tidak dipertimbangkan. Namun, banyak referensi yang sangat serius mengklaim, sebaliknya, bahwa struktur hierarki pohon menjamin bahwa interaksi antara para prediktor secara otomatis …


1
Bagaimana memilih jumlah split dalam rpart ()?
Saya telah menggunakan rpart.controluntuk minsplit=2, dan mendapat hasil berikut dari rpart()fungsi. Untuk menghindari kelebihan data, apakah saya perlu menggunakan split 3 atau split 7? Haruskah saya menggunakan split 7? Tolong beritahu saya. Variabel yang sebenarnya digunakan dalam konstruksi pohon: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= …
9 r  cart  rpart 

4
Dapatkah regresi berbasis pohon berkinerja lebih buruk daripada regresi linier biasa?
Hai, saya sedang mempelajari teknik regresi. Data saya memiliki 15 fitur dan 60 juta contoh (tugas regresi). Ketika saya mencoba banyak teknik regresi yang dikenal (gradient boosted tree, Decision tree regression, AdaBoostRegressor dll) regresi linier dilakukan dengan sangat baik. Skor hampir terbaik di antara algoritma tersebut. Apa yang bisa menjadi …

1
Definisi kerumitan pohon di xgboost
Melakukan penelitian tentang algoritma xgboost saya membaca dokumentasi . Dalam pendekatan ini, pohon diatur menggunakan definisi kompleksitas mana dan adalah parameter, adalah jumlah daun terminal dan adalah skor di setiap daun.Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 γγ\gammaλλ\lambdaTTTwjwjw_j Saya bertanya-tanya: bagaimana ini mendefinisikan kompleksitas? , jumlah node …

2
Bagaimana nilai CP (Kompleksitas Biaya) dihitung dalam RPART (atau pohon keputusan secara umum)
Dari apa yang saya mengerti, argumen cp ke rpartfungsi membantu pra-pangkas pohon dengan cara yang sama dengan argumen menitplit atau minbucket. Yang tidak saya mengerti adalah bagaimana nilai CP dihitung. Sebagai contoh df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1) …
9 r  cart  rpart 

1
Dapatkah saya menggabungkan banyak pohon meningkatkan gradien menggunakan teknik mengantongi
Berdasarkan Gradient Boosting Tree vs Random Forest . GBDT dan RF menggunakan strategi berbeda untuk mengatasi bias dan varians. Pertanyaan saya adalah apakah saya bisa membuat sampel ulang dataset (dengan penggantian) untuk melatih beberapa GBDT dan menggabungkan prediksi mereka sebagai hasil akhir? Ini sama dengan membangun hutan acak menggunakan GBDT …

3
(Non-) regresi linier pada pohon keputusan daun
Apakah lazim memiliki teknik regresi yang berbeda pada daun pohon regresi (misalnya regresi linier)? Saya telah mencarinya selama satu jam terakhir, tetapi yang saya temukan hanyalah implementasi yang memiliki nilai konstan pada daun pohon. Apakah ada alasan mengapa ini tidak umum?

1
Decision Tree dengan variabel input kontinu
Diketahui bahwa ketika membangun pohon keputusan, kami membagi variabel input secara mendalam dan menemukan pemisahan 'terbaik' dengan pendekatan uji statistik atau pendekatan fungsi Pengotor. Pertanyaan saya adalah ketika kita menggunakan variabel kontinu sebagai variabel input (hanya beberapa nilai duplikat), jumlah pemisahan yang mungkin bisa sangat besar, untuk menemukan pemisahan 'terbaik' …
8 cart 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.