Statistik dan Big Data cross-validation

1

Pertanyaan tentang mengurangi rata-rata di kereta / set valid / tes

Saya melakukan preprocessing data dan akan membangun Convonets pada data saya setelahnya. Pertanyaan saya adalah: Katakan saya memiliki set data total dengan 100 gambar, saya menghitung rata-rata untuk masing-masing dari 100 gambar dan kemudian kurangi dari masing-masing gambar, kemudian pisahkan ini ke dalam set kereta dan validasi, dan saya melakukan …

11 machine-learning cross-validation data-preprocessing

1

Jumlah komponen utama saat preprocessing menggunakan PCA dalam paket caret di R

Saya menggunakan caretpaket Runtuk pelatihan pengklasifikasi biner SVM. Untuk pengurangan fitur, saya melakukan preprocessing dengan PCA menggunakan fitur preProc=c("pca")bawaan saat menelepon train(). Ini pertanyaan saya: Bagaimana caret memilih komponen utama? Apakah ada sejumlah komponen utama yang dipilih? Apakah komponen utama dipilih oleh sejumlah varian yang dijelaskan (mis. 80%)? Bagaimana saya …

11 r machine-learning pca cross-validation caret

1

Apakah 'adil' untuk menetapkan benih dalam regresi hutan acak untuk menghasilkan akurasi tertinggi?

Saya memiliki regresi hutan acak yang dibangun menggunakan skl dan saya perhatikan bahwa saya menghasilkan hasil yang berbeda berdasarkan pengaturan benih acak untuk nilai yang berbeda. Jika saya menggunakan LOOCV untuk menetapkan seed mana yang paling berhasil, apakah ini metode yang valid?

10 cross-validation random-forest

1

Kapan tidak menggunakan validasi silang?

Ketika saya membaca situs ini sebagian besar jawaban menyarankan bahwa validasi silang harus dilakukan dalam algoritma pembelajaran mesin. Namun ketika saya membaca buku "Memahami Pembelajaran Mesin" saya melihat ada latihan yang terkadang lebih baik untuk tidak menggunakan validasi silang. Saya sangat bingung. Kapan algoritma pelatihan pada seluruh data lebih baik …

10 machine-learning self-study cross-validation

1

Regresi hutan acak untuk prediksi deret waktu

Saya mencoba memanfaatkan regresi RF untuk membuat prediksi tentang kinerja pabrik kertas. Saya memiliki data menit demi menit untuk input (laju dan jumlah bubur kayu masuk dll ...) serta untuk kinerja mesin (kertas yang diproduksi, daya yang ditarik oleh mesin) dan saya ingin membuat prediksi 10 menit di depan pada …

10 time-series forecasting cross-validation random-forest autoregressive

1

Bagaimana cara melakukan validasi silang dengan cv.glmnet (regresi LASSO dalam R)?

Saya bertanya-tanya bagaimana cara pendekatan dengan benar pelatihan dan pengujian model LASSO menggunakan glmnet di R? Secara khusus, saya bertanya-tanya bagaimana cara melakukannya jika kurangnya set data uji eksternal mengharuskan saya gunakan validasi silang (atau pendekatan serupa lainnya) untuk menguji model LASSO saya. Biarkan saya memecah skenario saya: Saya hanya …

10 r cross-validation glmnet lasso

3

Mengapa taksiran CV dari Uji Kesalahan Meremehkan Kesalahan Tes Aktual?

Ini adalah pemahaman saya bahwa estimasi validasi silang k-fold dari kesalahan tes biasanya meremehkan kesalahan tes yang sebenarnya. Saya bingung mengapa ini masalahnya. Saya mengerti mengapa kesalahan pelatihan biasanya lebih rendah dari kesalahan pengujian - karena Anda melatih model pada data yang sama dengan yang Anda perkirakan kesalahannya! Tapi itu …

10 cross-validation bias

1

Mencegah kegagalan pengambilan sampel Pareto smoothed importance (PSIS-LOO)

Saya baru-baru ini mulai menggunakan Pareto smoothed pentingnya pengambilan sampel validasi silang keluar-keluar-keluar (PSIS-LOO), yang dijelaskan dalam makalah ini: Vehtari, A., & Gelman, A. (2015). Pareto memuluskan sampel kepentingan. pracetak arXiv ( tautan ). Vehtari, A., Gelman, A., & Gabry, J. (2016). Evaluasi model Bayesian praktis menggunakan validasi silang tinggalkan-keluar-keluar …

10 machine-learning cross-validation mcmc pareto-distribution importance-sampling

1

Metode apa yang ada untuk tuning graph kernel SVM hyperparameters?

Saya memiliki beberapa data yang ada pada grafik . milik salah satu dari dua kelas , dan saya tertarik untuk melatih SVM untuk membedakan antara dua kelas. Salah satu kernel yang sesuai untuk ini adalah difusi kernel , mana adalah Laplacian dari dan adalah parameter tuning.G=(V,E)G=(V,E)G=(V,E)yi∈{−1,1}yi∈{−1,1}y_i\in\{-1,1\}K=exp(−βL),K=exp⁡(−βL),K=\exp(-\beta L),LLLGGGββ\beta Tuning SVM membutuhkan …

10 svm cross-validation kernel-trick graph-theory

1

Apakah pemodelan dengan Hutan Acak membutuhkan validasi silang?

Sejauh yang saya lihat, pendapat cenderung berbeda tentang ini. Praktik terbaik tentu akan menentukan menggunakan validasi silang (terutama jika membandingkan RF dengan algoritma lain pada dataset yang sama). Di sisi lain, sumber asli menyatakan bahwa fakta kesalahan OOB dihitung selama pelatihan model cukup dari indikator kinerja set tes. Bahkan Trevor …

10 cross-validation random-forest overfitting out-of-sample

2

Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?

Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin? Saya akan memilih secara intuitif Pelatihan menetapkan ukuran 50 Validasi silang mengatur ukuran 25, dan Ukuran tes 25. Tapi mungkin ini lebih …

10 machine-learning sampling svm cross-validation sample-size

1

Apakah validasi hold-out merupakan perkiraan yang lebih baik untuk “mendapatkan data baru” daripada k-fold CV?

Saya telah memikirkan kembali jawaban yang saya berikan pada pertanyaan beberapa minggu yang lalu Hold-out cross-validation menghasilkan satu set tes yang dapat digunakan berulang kali untuk demonstrasi. Kita semua tampaknya setuju bahwa ini dalam banyak hal adalah fitur negatif, karena satu set keluar mungkin menjadi non-representatif melalui keacakan. Selain itu, …

10 cross-validation

2

Keunggulan LASSO dibandingkan seleksi maju / eliminasi mundur dalam hal kesalahan prediksi validasi silang model

Saya mendapatkan tiga model tereduksi dari model full asli yang menggunakan seleksi ke depan eliminasi mundur Teknik hukuman L1 (LASSO) Untuk model yang diperoleh dengan menggunakan seleksi maju / eliminasi mundur, saya memperoleh estimasi kesalahan prediksi prediksi yang digunakan CVlmdalam paket yang DAAGtersedia di R. Untuk model yang dipilih melalui …

10 cross-validation model-selection lasso stepwise-regression

3

Haruskah pemilihan fitur dilakukan hanya pada data pelatihan (atau semua data)?

Haruskah pemilihan fitur dilakukan hanya pada data pelatihan (atau semua data)? Saya telah melalui beberapa diskusi dan makalah seperti Guyon (2003) dan Singhi dan Liu (2006) , tetapi masih tidak yakin tentang jawaban yang benar. Pengaturan percobaan saya adalah sebagai berikut: Dataset: 50-kontrol sehat & 50-pasien penyakit (cca 200 fitur …

10 dataset cross-validation experiment-design feature-selection

1

Membandingkan distribusi kinerja generalisasi

Katakanlah saya memiliki dua metode pembelajaran untuk masalah klasifikasi , dan , dan bahwa saya memperkirakan kinerja generalisasi mereka dengan sesuatu seperti validasi silang berulang atau bootstrap. Dari proses ini saya mendapatkan distribusi skor dan untuk setiap metode di seluruh pengulangan ini (misalnya distribusi nilai AUC ROC untuk setiap model).AAABBB …

10 cross-validation model-selection

Pertanyaan yang diberi tag «cross-validation»