Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.


1
Jumlah komponen utama saat preprocessing menggunakan PCA dalam paket caret di R
Saya menggunakan caretpaket Runtuk pelatihan pengklasifikasi biner SVM. Untuk pengurangan fitur, saya melakukan preprocessing dengan PCA menggunakan fitur preProc=c("pca")bawaan saat menelepon train(). Ini pertanyaan saya: Bagaimana caret memilih komponen utama? Apakah ada sejumlah komponen utama yang dipilih? Apakah komponen utama dipilih oleh sejumlah varian yang dijelaskan (mis. 80%)? Bagaimana saya …


1
Kapan tidak menggunakan validasi silang?
Ketika saya membaca situs ini sebagian besar jawaban menyarankan bahwa validasi silang harus dilakukan dalam algoritma pembelajaran mesin. Namun ketika saya membaca buku "Memahami Pembelajaran Mesin" saya melihat ada latihan yang terkadang lebih baik untuk tidak menggunakan validasi silang. Saya sangat bingung. Kapan algoritma pelatihan pada seluruh data lebih baik …


1
Bagaimana cara melakukan validasi silang dengan cv.glmnet (regresi LASSO dalam R)?
Saya bertanya-tanya bagaimana cara pendekatan dengan benar pelatihan dan pengujian model LASSO menggunakan glmnet di R? Secara khusus, saya bertanya-tanya bagaimana cara melakukannya jika kurangnya set data uji eksternal mengharuskan saya gunakan validasi silang (atau pendekatan serupa lainnya) untuk menguji model LASSO saya. Biarkan saya memecah skenario saya: Saya hanya …

3
Mengapa taksiran CV dari Uji Kesalahan Meremehkan Kesalahan Tes Aktual?
Ini adalah pemahaman saya bahwa estimasi validasi silang k-fold dari kesalahan tes biasanya meremehkan kesalahan tes yang sebenarnya. Saya bingung mengapa ini masalahnya. Saya mengerti mengapa kesalahan pelatihan biasanya lebih rendah dari kesalahan pengujian - karena Anda melatih model pada data yang sama dengan yang Anda perkirakan kesalahannya! Tapi itu …

1
Mencegah kegagalan pengambilan sampel Pareto smoothed importance (PSIS-LOO)
Saya baru-baru ini mulai menggunakan Pareto smoothed pentingnya pengambilan sampel validasi silang keluar-keluar-keluar (PSIS-LOO), yang dijelaskan dalam makalah ini: Vehtari, A., & Gelman, A. (2015). Pareto memuluskan sampel kepentingan. pracetak arXiv ( tautan ). Vehtari, A., Gelman, A., & Gabry, J. (2016). Evaluasi model Bayesian praktis menggunakan validasi silang tinggalkan-keluar-keluar …

1
Metode apa yang ada untuk tuning graph kernel SVM hyperparameters?
Saya memiliki beberapa data yang ada pada grafik . milik salah satu dari dua kelas , dan saya tertarik untuk melatih SVM untuk membedakan antara dua kelas. Salah satu kernel yang sesuai untuk ini adalah difusi kernel , mana adalah Laplacian dari dan adalah parameter tuning.G=(V,E)G=(V,E)G=(V,E)yi∈{−1,1}yi∈{−1,1}y_i\in\{-1,1\}K=exp(−βL),K=exp⁡(−βL),K=\exp(-\beta L),LLLGGGββ\beta Tuning SVM membutuhkan …


2
Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?
Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin? Saya akan memilih secara intuitif Pelatihan menetapkan ukuran 50 Validasi silang mengatur ukuran 25, dan Ukuran tes 25. Tapi mungkin ini lebih …

1
Apakah validasi hold-out merupakan perkiraan yang lebih baik untuk “mendapatkan data baru” daripada k-fold CV?
Saya telah memikirkan kembali jawaban yang saya berikan pada pertanyaan beberapa minggu yang lalu Hold-out cross-validation menghasilkan satu set tes yang dapat digunakan berulang kali untuk demonstrasi. Kita semua tampaknya setuju bahwa ini dalam banyak hal adalah fitur negatif, karena satu set keluar mungkin menjadi non-representatif melalui keacakan. Selain itu, …

2
Keunggulan LASSO dibandingkan seleksi maju / eliminasi mundur dalam hal kesalahan prediksi validasi silang model
Saya mendapatkan tiga model tereduksi dari model full asli yang menggunakan seleksi ke depan eliminasi mundur Teknik hukuman L1 (LASSO) Untuk model yang diperoleh dengan menggunakan seleksi maju / eliminasi mundur, saya memperoleh estimasi kesalahan prediksi prediksi yang digunakan CVlmdalam paket yang DAAGtersedia di R. Untuk model yang dipilih melalui …

3
Haruskah pemilihan fitur dilakukan hanya pada data pelatihan (atau semua data)?
Haruskah pemilihan fitur dilakukan hanya pada data pelatihan (atau semua data)? Saya telah melalui beberapa diskusi dan makalah seperti Guyon (2003) dan Singhi dan Liu (2006) , tetapi masih tidak yakin tentang jawaban yang benar. Pengaturan percobaan saya adalah sebagai berikut: Dataset: 50-kontrol sehat & 50-pasien penyakit (cca 200 fitur …

1
Membandingkan distribusi kinerja generalisasi
Katakanlah saya memiliki dua metode pembelajaran untuk masalah klasifikasi , dan , dan bahwa saya memperkirakan kinerja generalisasi mereka dengan sesuatu seperti validasi silang berulang atau bootstrap. Dari proses ini saya mendapatkan distribusi skor dan untuk setiap metode di seluruh pengulangan ini (misalnya distribusi nilai AUC ROC untuk setiap model).AAABBB …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.