Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
Validasi silang dan regresi logistik ordinal
Saya mencoba memahami validasi silang untuk regresi logistik ordinal. Tujuan permainan ini adalah untuk memvalidasi model yang digunakan dalam analisis ... Saya pertama kali membuat kumpulan data mainan: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- …

2
Keras: mengapa kehilangan berkurang sementara val_loss meningkat?
Saya menyiapkan pencarian grid untuk sekelompok params. Saya mencoba mencari parameter terbaik untuk jaring neural Keras yang melakukan klasifikasi biner. Outputnya adalah 1 atau 0. Ada sekitar 200 fitur. Ketika saya melakukan pencarian kotak, saya mendapat banyak model dan parameternya. Model terbaik memiliki parameter ini: Epochs : 20 Batch Size …


2
Definisi tepat ukuran Deviance dalam paket glmnet, dengan crossvalidation?
Untuk penelitian saya saat ini, saya menggunakan metode Lasso melalui paket glmnet di R pada variabel dependen binomial. Dalam glmnet lambda optimal ditemukan melalui validasi silang dan model yang dihasilkan dapat dibandingkan dengan berbagai tindakan, misalnya kesalahan klasifikasi atau penyimpangan. Pertanyaan saya: Bagaimana tepatnya penyimpangan didefinisikan dalam glmnet? Bagaimana cara …

2
Apakah tingkat Kesalahan fungsi Cembung parameter lambda Regularisasi?
Dalam memilih parameter regularisasi lambda di Ridge atau Lasso, metode yang disarankan adalah mencoba nilai-nilai lambda yang berbeda, mengukur kesalahan dalam Set Validasi dan akhirnya memilih nilai lambda yang mengembalikan kesalahan terendah. Ini tidak jelas bagi saya jika fungsi f (lambda) = error adalah Convex. Mungkinkah seperti ini? Yaitu dapat …

2
Apakah membagi data menjadi set tes dan pelatihan semata-mata merupakan "statistik"?
Saya seorang mahasiswa fisika yang mempelajari pembelajaran mesin / ilmu data, jadi saya tidak bermaksud pertanyaan ini untuk memulai konflik apa pun :) Namun, sebagian besar program sarjana fisika adalah melakukan laboratorium / eksperimen, yang berarti banyak data pemrosesan dan analisis statistik. Namun, saya melihat perbedaan yang tajam antara cara …

4
Apa cara yang lebih tepat untuk membuat set penahan: untuk menghapus beberapa mata pelajaran atau untuk menghapus beberapa pengamatan dari setiap mata pelajaran?
Saya memiliki dataset dengan 26 fitur dan 31000 baris. Ini adalah dataset dari 38 subjek. Ini untuk sistem biometrik. Jadi saya ingin dapat mengidentifikasi mata pelajaran. Untuk memiliki set pengujian, saya tahu saya harus menghapus beberapa nilai. Jadi apa yang lebih baik untuk dilakukan dan mengapa? (a) simpan 30 subjek …

1
Mengapa banyak pilihan K menurunkan nilai validasi silang saya?
Bermain-main dengan Boston Housing Dataset dan RandomForestRegressor(parameter w / default) di scikit-belajar, saya melihat sesuatu yang aneh: skor validasi silang menurun ketika saya meningkatkan jumlah lipatan di atas 10. Strategi validasi silang saya adalah sebagai berikut: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... di mana num_cvsbervariasi. …

2
Validasi silang setelah LASSO dalam data survei yang kompleks
Saya mencoba melakukan pemilihan model pada beberapa kandidat yang menggunakan LASSO dengan hasil yang berkelanjutan. Tujuannya adalah untuk memilih model optimal dengan kinerja prediksi terbaik, yang biasanya dapat dilakukan dengan validasi silang K-fold setelah mendapatkan jalur solusi dari parameter tuning dari LASSO. Masalahnya di sini adalah bahwa data berasal dari …






1
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?
The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.