Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.


1
Mengapa informasi tentang data validasi bocor jika saya mengevaluasi kinerja model pada data validasi ketika menyetel hyperparameters?
Dalam Pembelajaran Dalam François Chollet dengan Python dikatakan: Akibatnya, menyetel konfigurasi model berdasarkan kinerjanya pada set validasi dapat dengan cepat menghasilkan overfitting ke set validasi, meskipun model Anda tidak pernah dilatih secara langsung mengenai hal itu. Inti dari fenomena ini adalah gagasan kebocoran informasi. Setiap kali Anda menyetel hyperparameter model …


1
Model pembelajaran dalam mana yang dapat mengklasifikasikan kategori yang tidak eksklusif satu sama lain
Contoh: Saya memiliki kalimat dalam deskripsi pekerjaan: "Java senior engineer in UK". Saya ingin menggunakan model pembelajaran yang mendalam untuk memperkirakannya sebagai 2 kategori: English dan IT jobs. Jika saya menggunakan model klasifikasi tradisional, hanya dapat memprediksi 1 label dengan softmaxfungsi di lapisan terakhir. Dengan demikian, saya dapat menggunakan 2 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Apakah boleh melakukan pemilihan fitur tanpa pengawasan sebelum validasi silang?
Dalam Elemen Pembelajaran Statistik , saya menemukan pernyataan berikut: Ada satu kualifikasi: langkah penyaringan awal tanpa pengawasan dapat dilakukan sebelum sampel ditinggalkan. Sebagai contoh, kita dapat memilih 1000 prediktor dengan varians tertinggi di seluruh 50 sampel, sebelum memulai validasi silang. Karena penyaringan ini tidak melibatkan label kelas, itu tidak memberikan …

2
Haruskah kita selalu melakukan CV?
Pertanyaan saya: apakah saya harus melakukan CV bahkan untuk kumpulan data yang relatif besar? Saya memiliki satu set data yang relatif besar dan saya akan menerapkan algoritma pembelajaran mesin pada set data. Karena PC saya tidak cepat, CV (dan pencarian grid) terkadang memakan waktu terlalu lama. Secara khusus SVM tidak …

1
Pengklasifikasi aljabar, informasi lebih lanjut?
Saya telah membaca pengklasifikasi aljabar: pendekatan umum untuk validasi silang cepat, pelatihan online, dan pelatihan paralel dan kagum dengan kinerja algoritma yang diturunkan. Namun, tampaknya di luar Naif Bayes (dan GBM) tidak ada banyak algoritma yang disesuaikan dengan kerangka kerja. Apakah ada makalah lain yang bekerja pada pengklasifikasi yang berbeda? …

1
Pemilihan model asli (?) Dengan k-fold CV
Ketika menggunakan k-fold CV untuk memilih di antara model regresi, saya biasanya menghitung kesalahan CV secara terpisah untuk masing-masing model, bersama dengan kesalahan standar SE, dan saya memilih model paling sederhana dalam 1 SE dari model dengan kesalahan CV terendah (1 aturan kesalahan standar, lihat misalnya di sini ). Namun, …

2
Pengujian ulang atau validasi silang ketika proses pembuatan model bersifat interaktif
Saya memiliki beberapa model prediktif yang kinerjanya ingin saya uji kembali (yaitu, ambil dataset saya, "putar kembali" ke titik waktu sebelumnya, dan lihat bagaimana model tersebut akan tampil secara prospektif). Masalahnya adalah bahwa beberapa model saya dibangun melalui proses interaktif. Misalnya, mengikuti saran dalam Strategi Pemodelan Regresi Frank Harrell , …

2
Perkiraan kesalahan out-of-bag untuk meningkatkan?
Dalam Random Forest, masing-masing pohon ditanam secara paralel pada sampel pendamping data yang unik. Karena setiap sampel boostrap diharapkan mengandung sekitar 63% dari pengamatan unik, ini menyisakan sekitar 37% dari pengamatan, yang dapat digunakan untuk menguji pohon. Sekarang, tampaknya dalam Stochastic Gradient Boosting, ada juga perkiraan serupa dengan yang ada …


2
Bagaimana menemukan nilai optimal untuk parameter tuning dalam meningkatkan pohon?
Saya menyadari bahwa ada 3 parameter penyetelan dalam model meningkatkan pohon, yaitu jumlah pohon (jumlah iterasi) parameter penyusutan jumlah pemisahan (ukuran masing-masing pohon penyusun) Pertanyaan saya adalah: untuk setiap parameter penyetelan, bagaimana saya harus menemukan nilai optimalnya? Dan metode apa? Perhatikan bahwa: parameter susut dan jumlah parameter pohon beroperasi bersama, …

1
R / caret: set kereta dan uji vs validasi silang?
Ini mungkin pertanyaan yang konyol, tetapi ketika membuat model dengan tanda sisipan dan menggunakan sesuatu seperti LOOCVatau (bahkan lebih tepatnya) LGOCV, apa manfaat membagi data ke dalam kereta dan set tes jika ini pada dasarnya merupakan langkah validasi silang ngomong-ngomong Saya membaca beberapa pertanyaan terkait dan mereka menyarankan bahwa beberapa …

1
Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?
Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.