Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

2
Dapatkah regularisasi bermanfaat jika kita hanya tertarik pada pemodelan, bukan pada peramalan?
Dapatkah regularisasi bermanfaat jika kita hanya tertarik dalam memperkirakan (dan menafsirkan) parameter model, bukan dalam peramalan atau prediksi? Saya melihat bagaimana regularisasi / validasi silang sangat berguna jika tujuan Anda adalah membuat perkiraan yang baik tentang data baru. Tetapi bagaimana jika Anda melakukan ekonomi tradisional dan semua yang Anda pedulikan …


2
Stabilitas validasi silang dalam model Bayesian
Saya memasang HLM Bayesian di JAGS menggunakan k-fold cross-validation (k = 5). Saya ingin tahu apakah estimasi parameter stabil di semua lipatan. Apa cara terbaik untuk melakukan ini?ββ\beta Satu ide adalah untuk menemukan perbedaan dari posteriors dari dan untuk melihat apakah 0 berada di 95% CI dari perbedaan. Dengan kata …

6
Apakah menyetel hyperparameter pada sampel dataset adalah ide yang buruk?
Saya memiliki dataset 140000 contoh dan 30 fitur yang saya latih beberapa pengklasifikasi untuk klasifikasi biner (SVM, Regresi Logistik, Hutan Acak dll) Dalam banyak kasus, penyetelan hyperparameter pada keseluruhan dataset menggunakan pencarian Grid atau Random terlalu memakan waktu. Saya mulai menggunakan teknik berikut Sub sampel dataset saya Gunakan fraksi yang …



1
Bukti formula LOOCV
Dari Pengantar Pembelajaran Statistik oleh James et al., Taksiran lintas-validasi silang (LOOCV) taksiran didefinisikan oleh mana .CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Tanpa bukti, persamaan (5.2) menyatakan bahwa untuk regresi kuadrat-terkecil atau polinomial (apakah ini berlaku untuk regresi hanya pada satu variabel tidak diketahui oleh saya), mana " berada yang th …

5
Variablity dalam hasil cv.glmnet
Saya menggunakan cv.glmnetuntuk menemukan prediktor. Pengaturan yang saya gunakan adalah sebagai berikut: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Untuk membuat yakin hasilnya direproduksi saya set.seed(1). Hasilnya sangat bervariasi. Saya menjalankan kode yang sama persis 100 untuk melihat bagaimana variabel hasilnya. Dalam menjalankan 98/100 memiliki satu prediktor tertentu selalu dipilih (kadang-kadang hanya …


2
Berapa kali kita harus mengulang CV K-fold?
Saya menemukan utas ini melihat perbedaan antara bootstrap dan validasi silang - jawaban yang bagus dan referensi. Apa yang saya bertanya-tanya sekarang adalah, jika saya adalah untuk melakukan diulang 10 kali lipat CV katakanlah untuk menghitung akurasi classifier ini, berapa kali n harus saya mengulanginya? Apakah n tergantung pada jumlah …


4
Validasi silang dan penyetelan parameter
Adakah yang bisa memberi tahu saya apa yang sebenarnya dihasilkan oleh analisis validasi silang? Apakah hanya akurasi rata-rata atau apakah itu memberikan model dengan parameter disetel? Karena, saya mendengar bahwa validasi silang digunakan untuk penyetelan parameter.


2
Mengapa menggunakan penskalaan Platt?
Untuk mengkalibrasi tingkat kepercayaan ke probabilitas dalam pembelajaran yang diawasi (katakanlah untuk memetakan kepercayaan dari SVM atau pohon keputusan menggunakan data yang terlalu banyak) salah satu metode adalah dengan menggunakan Penskalaan Platt (misalnya, Memperoleh Kemungkinan yang Dikalibrasi dari Peningkatan ). Pada dasarnya orang menggunakan regresi logistik untuk memetakan ke . …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.