Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
Penggunaan validasi silang bersarang
Halaman Scikit Learn pada Seleksi Model menyebutkan penggunaan validasi silang bersarang: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dua loop validasi silang dilakukan secara paralel: satu oleh estimator GridSearchCV untuk mengatur gamma dan yang lainnya oleh cross_val_score untuk mengukur kinerja prediksi estimator. Skor yang dihasilkan adalah …

1
Melatih vs Kesenjangan Kesalahan Tes dan hubungannya dengan Overfitting: Merekonsiliasi saran yang bertentangan
Tampaknya ada saran yang bertentangan di luar sana tentang bagaimana menangani membandingkan kesalahan kereta vs tes, terutama ketika ada kesenjangan antara keduanya. Tampaknya ada dua aliran pemikiran yang bagi saya, tampaknya bertentangan. Saya ingin memahami cara mendamaikan keduanya (atau memahami apa yang saya lewatkan di sini). Pemikiran # 1: Kesenjangan …

2
Bagaimana kesesuaian k-fold cross sesuai dengan konteks pelatihan / validasi / pengujian set?
Pertanyaan utama saya adalah tentang mencoba memahami bagaimana k-fold cross-validation cocok dalam konteks memiliki pelatihan / validasi / pengujian set (jika cocok sama sekali dalam konteks seperti itu). Biasanya, orang berbicara tentang memecah data menjadi set pelatihan, validasi dan pengujian - katakan dengan rasio 60/20/20 per kursus Andrew Ng - …

2
Validasi silang dan optimasi parameter
Saya punya pertanyaan tentang optimasi parameter ketika saya menggunakan validasi silang 10 kali lipat. Saya ingin bertanya apakah parameter harus diperbaiki atau tidak selama pelatihan model setiap lipatan, yaitu (1) pilih satu set parameter yang dioptimalkan untuk akurasi rata-rata setiap lipatan. atau (2) Saya harus menemukan parameter yang dioptimalkan untuk …

5
Pertanyaan filosofis tentang regresi logistik: mengapa nilai ambang batas yang optimal tidak dilatih?
Biasanya dalam regresi logistik, kami cocok dengan model dan mendapatkan beberapa prediksi pada set pelatihan. Kami kemudian melakukan validasi silang pada prediksi pelatihan tersebut (seperti di sini ) dan memutuskan nilai ambang batas optimal berdasarkan pada sesuatu seperti kurva ROC. Mengapa kita tidak memasukkan validasi silang dari ambang ke dalam …

1
Mengevaluasi Hutan Acak: OOB vs CV
Ketika kami menilai kualitas Hutan Acak, misalnya menggunakan AUC, apakah lebih tepat untuk menghitung jumlah ini di atas Sampel Luar Tas atau lebih dari seperangkat validasi silang tahan? Saya mendengar bahwa menghitungnya melalui Sampel OOB memberikan penilaian yang lebih pesimistis, tetapi saya tidak mengerti mengapa.

4
Bagaimana perbedaan validasi silang dengan pengintaian data?
Saya baru saja menyelesaikan "Pengantar Pembelajaran Statistik" . Saya bertanya-tanya apakah menggunakan cross-validation untuk menemukan parameter tuning terbaik untuk berbagai teknik pembelajaran mesin berbeda dari pengintaian data? Kami berulang kali memeriksa nilai parameter tuning mana yang menghasilkan hasil prediksi terbaik di set uji. Bagaimana jika parameter penyetelan yang kami tiba …

1
Dengan validasi silang k-fold, apakah Anda rata-rata semua model
Saat melakukan validasi silang k-fold, saya memahami bahwa Anda memperoleh metrik akurasi dengan mengarahkan semua lipatan kecuali satu lipatan pada satu lipatan dan membuat prediksi, lalu ulangi proses ini kali. Anda kemudian dapat menjalankan metrik akurasi pada semua instance Anda (presisi, recall,% diklasifikasikan dengan benar), yang seharusnya sama seperti jika …


2
Memahami bootstrap untuk validasi dan pemilihan model
Saya rasa saya mengerti bagaimana dasar-dasar bootstrap bekerja, tapi saya tidak yakin saya mengerti bagaimana saya bisa menggunakan bootstrap untuk pemilihan model atau untuk menghindari overfitting. Untuk pemilihan model, misalnya, apakah Anda hanya memilih model yang menghasilkan kesalahan terendah (mungkin varians?) Di seluruh sampel bootstrapnya? Apakah ada teks yang membahas …

1
Cara memperbaiki non-konvergensi di LogisticRegressionCV
Saya menggunakan scikit-belajar untuk melakukan regresi logistik dengan crossvalidation pada set data (sekitar 14 parameter dengan> 7000 pengamatan normal). Saya juga memiliki target classifier yang memiliki nilai 1 atau 0. Masalah yang saya miliki adalah bahwa terlepas dari pemecah yang digunakan, saya terus mendapatkan peringatan konvergensi ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …


1
Apakah ada kegunaan jackknifing kontemporer?
Pertanyaannya: Bootstrapping lebih unggul daripada jackknifing; Namun, saya bertanya-tanya apakah ada contoh di mana jackknifing adalah satu-satunya atau setidaknya pilihan yang layak untuk mengkarakterisasi ketidakpastian dari estimasi parameter. Juga, dalam situasi praktis bagaimana bias / tidak akurat jackknifing relatif terhadap bootstrap, dan bisakah hasil jackknife memberikan wawasan awal sebelum bootstrap …

4
Bisakah Anda membandingkan metode pengelompokan berbeda pada dataset tanpa kebenaran dasar dengan validasi silang?
Saat ini, saya mencoba untuk menganalisis dataset dokumen teks yang tidak memiliki kebenaran dasar. Saya diberitahu bahwa Anda dapat menggunakan validasi silang k-fold untuk membandingkan berbagai metode pengelompokan. Namun, contoh-contoh yang saya lihat di masa lalu menggunakan kebenaran dasar. Apakah ada cara untuk menggunakan cara k-fold pada dataset ini untuk …

1
Perbedaan antara PROC Mixed dan lme / lmer dalam R - derajat kebebasan
Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam berbagai tes berbeda antara PROC MIXEDdan lme, dan saya bertanya-tanya mengapa. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.