Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
AUC dalam regresi logistik ordinal
Saya menggunakan 2 jenis regresi logistik - satu adalah tipe sederhana, untuk klasifikasi biner, dan yang lainnya adalah regresi logistik ordinal. Untuk menghitung akurasi yang pertama, saya menggunakan validasi silang, di mana saya menghitung AUC untuk setiap lipatan dan kemudian menghitung rata-rata AUC. Bagaimana saya bisa melakukannya untuk regresi logistik …

2
Validasi Silang untuk model campuran?
Rekan saya dan saya sedang menyesuaikan serangkaian model efek campuran linier dan nonlinear dalam R. Kami diminta untuk melakukan validasi silang pada model yang dipasang sehingga orang dapat memverifikasi bahwa efek yang diamati relatif dapat digeneralisasikan. Ini biasanya tugas yang sepele, tetapi dalam kasus kami, kami harus membagi seluruh data …

2
Bagaimana cara seseorang menerapkan validasi silang dalam konteks pemilihan parameter pembelajaran untuk mesin vektor pendukung?
Paket libsvm yang luar biasa menyediakan antarmuka python dan file "easy.py" yang secara otomatis mencari parameter pembelajaran (biaya & gamma) yang memaksimalkan akurasi classifier. Dalam satu set parameter pembelajaran kandidat tertentu, keakuratan dioperasionalkan dengan validasi silang, tetapi saya merasa seperti ini merusak tujuan validasi silang. Yaitu, sejauh parameter pembelajaran itu …


2
Hitung kurva ROC untuk data
Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
Apakah implementasi validasi silang memengaruhi hasilnya?
Seperti yang Anda ketahui, ada dua jenis populer validasi silang, K-fold dan subsampling acak (seperti yang dijelaskan dalam Wikipedia ). Namun demikian, saya tahu bahwa beberapa peneliti membuat dan menerbitkan makalah di mana sesuatu yang digambarkan sebagai CV K-fold memang merupakan subsampling acak, jadi dalam praktiknya Anda tidak pernah tahu …


2
Optimalkan SVM untuk menghindari false-negative dalam klasifikasi biner
Saya melatih classifier biner SVM menggunakan Scikit belajar. Karena sifat masalah saya, saya perlu menghindari negatif palsu. Karena tidak ada yang gratis, saya oke mendapatkan tingkat positif palsu yang lebih tinggi untuk mengurangi jumlah negatif palsu. Bagaimana kita bisa melakukan itu (idealnya dengan Scikit belajar)? Dengan kata lain, bagaimana kita …

1
Teknik untuk mendeteksi overfitting
Saya memiliki wawancara kerja untuk posisi ilmu data. Selama wawancara, saya ditanya apa yang harus saya lakukan untuk memastikan modelnya tidak overfitting. Jawaban pertama saya adalah menggunakan validasi silang untuk menilai kinerja model. Namun, pewawancara mengatakan bahwa bahkan validasi silang tidak dapat mengidentifikasi overfitting sepenuhnya. Lalu saya menyebutkan regularisasi, tetapi …

3
Data pelatihan tidak seimbang - tetapi apakah set validasi saya juga harus?
Saya telah memberi label data yang terdiri dari 10.000 contoh positif, dan 50.000 contoh negatif, sehingga totalnya 60000 contoh. Jelas data ini tidak seimbang. Sekarang katakanlah saya ingin membuat set validasi saya, dan saya ingin menggunakan 10% dari data saya untuk melakukannya. Pertanyaan saya adalah sebagai berikut: Haruskah saya memastikan …

2
Bonferroni Koreksi & pembelajaran mesin
Dalam studi psikologi saya belajar bahwa kita harus menggunakan metode Bonferroni untuk menyesuaikan tingkat signifikansi ketika menguji beberapa hipotesis pada satu dataset. Saat ini saya sedang bekerja dengan metode pembelajaran mesin seperti Support Vector Machines atau Random Forest untuk klasifikasi. Di sini saya memiliki satu set data yang digunakan dalam …

1
Pemilihan model deret waktu: AIC vs SSE out-of-sample dan kesetaraannya
AIC sering direkomendasikan sebagai kriteria untuk membandingkan model untuk peramalan seri waktu. Lihat misalnya ini dalam konteks model regresi dinamis : AIC dapat dihitung untuk model akhir, dan nilai ini dapat digunakan untuk menentukan prediktor terbaik. Artinya, prosedur harus diulangi untuk mempertimbangkan semua himpunan bagian prediktor, dan model dengan nilai …




Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.