Pertanyaan yang diberi tag «random-forest»

Hutan acak adalah metode pembelajaran mesin yang menggabungkan hasil dari banyak pohon keputusan.

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Langkah-langkah pertama belajar memprediksi waktu keuangan menggunakan pembelajaran mesin
Saya mencoba memahami cara menggunakan pembelajaran mesin untuk memprediksi waktu keuangan 1 atau lebih langkah ke depan. Saya memiliki jadwal waktu keuangan dengan beberapa data deskriptif dan saya ingin membentuk model dan kemudian menggunakan model untuk memprediksi langkah-n ke depan. Apa yang telah saya lakukan sejauh ini adalah: getSymbols("GOOG") GOOG$sma …



2
randomForest memilih regresi daripada klasifikasi
Saya menggunakan paket randomForest dalam R dan menggunakan data iris, hutan acak yang dihasilkan adalah klasifikasi tetapi ketika saya menggunakan dataset dengan sekitar 700 fitur (fitur-fiturnya adalah masing-masing piksel dalam gambar 28x28 piksel) dan kolom label dinamai label, yang randomForestdihasilkan adalah regresi. Saya menggunakan baris berikut: rf <- randomForest(label ~ …
12 r  random-forest 

2
PCA dan hutan acak
Untuk kompetisi Kaggle baru-baru ini, saya (secara manual) mendefinisikan 10 fitur tambahan untuk set pelatihan saya, yang kemudian akan digunakan untuk melatih classifier hutan acak. Saya memutuskan untuk menjalankan PCA pada dataset dengan fitur-fitur baru, untuk melihat bagaimana mereka dibandingkan satu sama lain. Saya menemukan bahwa ~ 98% varians dibawa …



1
Apakah preprocessing diperlukan sebelum prediksi menggunakan FinalModel dari RandomForest dengan paket caret?
Saya menggunakan paket caret untuk melatih objek randomForest dengan 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Setelah itu, saya menguji randomForest pada testSet (data baru) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) Matriks kebingungan menunjukkan kepada saya, bahwa modelnya tidak terlalu buruk. …

2
Bagaimana cara menggabungkan hasil regresi logistik dan hutan acak?
Saya baru belajar mesin. Saya menerapkan regresi logistik dan hutan acak pada dataset yang sama. Jadi saya mendapatkan variabel penting (koefisien absolut untuk regresi logistik dan variabel penting untuk hutan acak). Saya berpikir untuk menggabungkan keduanya untuk mendapatkan kepentingan variabel akhir. Adakah yang bisa berbagi pengalamannya? Saya sudah memeriksa bagging, …

2
Pemilihan fitur dan penyetelan parameter dengan tanda sisipan untuk hutan acak
Saya memiliki data dengan beberapa ribu fitur dan saya ingin melakukan pemilihan fitur rekursif (RFE) untuk menghapus yang tidak informatif. Saya melakukan ini dengan tanda sisipan dan RFE. Namun, saya mulai berpikir, jika saya ingin mendapatkan kecocokan regresi terbaik (hutan acak, misalnya), kapan saya harus melakukan penyetelan parameter ( mtryuntuk …


2
Apakah Random Forests menunjukkan bias prediksi?
Saya pikir ini adalah pertanyaan langsung, meskipun alasan di balik mengapa atau mengapa tidak. Alasan saya bertanya adalah bahwa saya baru-baru ini menulis implementasi RF saya sendiri dan meskipun berkinerja baik, kinerjanya tidak sebaik yang saya harapkan (berdasarkan set data kompetisi Prediksi Kualitas Foto Kaggle , skor kemenangan dan beberapa …

3
Regresi hutan acak tidak memprediksi lebih tinggi dari data pelatihan
Saya perhatikan ketika membangun model regresi hutan acak, setidaknya dalam R, nilai prediksi tidak pernah melebihi nilai maksimum dari variabel target yang terlihat dalam data pelatihan. Sebagai contoh, lihat kode di bawah ini. Saya sedang membangun model regresi untuk memprediksi mpgberdasarkan mtcarsdata. Saya membuat OLS dan model hutan acak, dan …
12 r  random-forest 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.