Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

5
Bisakah Anda menyesuaikan diri dengan pelatihan algoritma pembelajaran mesin menggunakan CV / Bootstrap?
Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak. Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini umumnya dilakukan dengan semacam teknik re-sampling (bootstrap, CV dll) agar …


1
Penyalahgunaan validasi silang (melaporkan kinerja untuk nilai hyperparameter terbaik)
Baru-baru ini saya menemukan makalah yang mengusulkan menggunakan pengklasifikasi k-NN pada dataset tertentu. Para penulis menggunakan semua sampel data yang tersedia untuk melakukan validasi silang k-fold untuk nilai k yang berbeda dan melaporkan hasil validasi silang dari konfigurasi hyperparameter terbaik. Sepengetahuan saya, hasil ini bias, dan mereka seharusnya mempertahankan set …

2
Mengapa menggunakan validasi silang bertingkat? Mengapa ini tidak merusak manfaat terkait varians?
Saya telah diberitahu bahwa bermanfaat untuk menggunakan validasi lintas bertingkat terutama ketika kelas respons tidak seimbang. Jika salah satu tujuan validasi silang adalah untuk membantu menjelaskan keacakan sampel data pelatihan asli kami, tentu membuat setiap lipatan memiliki distribusi kelas yang sama akan bekerja melawan hal ini kecuali Anda yakin set …

1
Metrik galat untuk memvalidasi silang model Poisson
Saya memvalidasi silang model yang mencoba memprediksi hitungan. Jika ini adalah masalah klasifikasi biner, saya akan menghitung AUC out-of-fold, dan jika ini adalah masalah regresi saya akan menghitung RMSE atau MAE out-of-fold Untuk model Poisson, metrik kesalahan apa yang dapat saya gunakan untuk mengevaluasi "keakuratan" dari prediksi out-of-sample? Apakah ada …

3
K-lipat vs. Validasi silang Monte Carlo
Saya mencoba mempelajari berbagai metode validasi silang, terutama dengan maksud untuk diterapkan pada teknik analisis multivariat yang diawasi. Dua yang saya temui adalah teknik validasi silang K-fold dan Monte Carlo. Saya telah membaca bahwa K-fold adalah variasi pada Monte Carlo tetapi saya tidak yakin saya sepenuhnya mengerti apa yang membentuk …


1
Menghitung pengulangan efek dari model lmer
Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Bisakah derajat kebebasan menjadi angka non-integer?
Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Mengapa ada asimetri antara langkah pelatihan dan langkah evaluasi?
Sudah terkenal, terutama dalam pemrosesan bahasa alami, bahwa pembelajaran mesin harus dilanjutkan dalam dua langkah, langkah pelatihan dan langkah evaluasi, dan mereka harus menggunakan data yang berbeda. Kenapa ini? Secara intuitif, proses ini membantu menghindari overfitting data, tetapi saya gagal melihat alasan (informasi-teoretis) inilah masalahnya. Terkait, saya telah melihat beberapa …


2
Perkiraan varians dalam validasi silang k-fold
K-fold cross-validation dapat digunakan untuk memperkirakan kemampuan generalisasi dari classifier yang diberikan. Bisakah saya (atau harus saya) juga menghitung varians yang dikumpulkan dari semua validasi berjalan untuk mendapatkan estimasi yang lebih baik dari variansnya? Jika tidak, mengapa? Saya telah menemukan makalah yang menggunakan deviasi standar gabungan lintas berjalan validasi . …

1
Bagaimana seseorang dapat secara empiris menunjukkan dalam R yang mana metode validasi silang yang setara dengan AIC dan BIC?
Dalam sebuah pertanyaan di tempat lain di situs ini, beberapa jawaban menyebutkan bahwa AIC setara dengan validasi silang leave-one-out (LOO) dan bahwa BIC setara dengan validasi silang K-fold. Apakah ada cara untuk secara empiris menunjukkan ini dalam R sehingga teknik yang terlibat dalam LOO dan K-fold diperjelas dan didemonstrasikan setara …
26 r  aic  cross-validation  bic 

4
Validasi silang internal vs eksternal dan pemilihan model
Pemahaman saya adalah bahwa dengan validasi silang dan pemilihan model kami mencoba mengatasi dua hal: P1 . Perkirakan perkiraan kerugian pada populasi saat pelatihan dengan sampel kami P2 . Ukur dan laporkan ketidakpastian estimasi kami ini (varians, interval kepercayaan, bias, dll.) Praktik standar tampaknya melakukan validasi silang berulang, karena ini …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.