Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.

3
Memahami validasi silang bertingkat
Apa perbedaan antara validasi silang bertingkat dan validasi silang ? Wikipedia mengatakan: Dalam stratifikasi k-fold cross-validation , lipatan dipilih sehingga nilai respons rata-rata hampir sama di semua lipatan. Dalam kasus klasifikasi dikotomis, ini berarti bahwa setiap lipatan berisi proporsi yang hampir sama dari dua jenis label kelas. Tapi saya masih …

10
Validasi hold-out vs validasi silang
Bagi saya, tampaknya validasi tahan tidak berguna. Yaitu, memisahkan dataset asli menjadi dua bagian (pelatihan dan pengujian) dan menggunakan skor pengujian sebagai ukuran generalisasi, agak tidak berguna. K-fold cross-validation tampaknya memberikan perkiraan yang lebih baik dari generalisasi (karena melatih dan menguji pada setiap titik). Jadi, mengapa kita menggunakan validasi hold-out …

5
Tentang pentingnya asumsi iid dalam pembelajaran statistik
Dalam pembelajaran statistik, secara implisit atau eksplisit, seseorang selalu mengasumsikan bahwa set pelatihan terdiri dari input input / respon yang diambil secara independen dari distribusi gabungan yang sama denganD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) dan hubungan yang kami coba tangkap …


1
Bagaimana menerapkan standardisasi / normalisasi ke train- and testset jika prediksi adalah tujuannya?
Apakah saya mengubah semua data atau lipatan saya (jika CV diterapkan) secara bersamaan? misalnya (allData - mean(allData)) / sd(allData) Apakah saya mengubah trainset dan testset secara terpisah? misalnya (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Atau apakah saya mengubah trainset dan menggunakan perhitungan pada testset? misalnya (trainData …

2
Jumlah lipatan optimal dalam validasi silang lipat: apakah CV cuti-keluar selalu merupakan pilihan terbaik?
Selain pertimbangan daya komputasi, adakah alasan untuk meyakini bahwa meningkatkan jumlah lipatan dalam validasi silang mengarah pada pemilihan model yang lebih baik / validasi (yaitu bahwa semakin tinggi jumlah lipatan semakin baik)? Mengambil argumen ke ekstrem, apakah validasi silang meninggalkan-satu-keluar harus mengarah ke model yang lebih baik daripada lipat lintas-validasi?KKK …

4
Kompendium teknik cross-validasi
Saya bertanya-tanya apakah ada yang tahu tentang ringkasan teknik validasi silang dengan diskusi tentang perbedaan antara mereka dan panduan tentang kapan harus menggunakan masing-masing. Wikipedia memiliki daftar teknik yang paling umum, tetapi saya ingin tahu apakah ada teknik lain, dan jika ada taksonomi untuk mereka. Sebagai contoh, saya hanya bertemu …

3
Justifikasi empiris untuk aturan satu kesalahan standar saat menggunakan cross-validation
Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik. "Satu aturan kesalahan standar" diterapkan ketika memilih model melalui cross-validation (atau lebih umum melalui prosedur berbasis …

3
Varian dari estimasi cross-validasi lipat sebagai : apa peran "stabilitas"?
TL, DR: Tampaknya, bertentangan dengan saran yang sering diulang, validasi silang tinggalkan-satu-keluar (LOO-CV) - yaitu,lipat CV dengan(jumlah lipatan) sama dengan(angka pengamatan pelatihan) - menghasilkan perkiraan kesalahan generalisasi yang merupakanvariabel terkecil untuk setiap, bukan variabel terbanyak, dengan asumsikondisi stabilitas tertentubaik pada model / algoritma, dataset, atau keduanya (saya tidak yakin yang …

7
Dapatkah validasi silang digunakan untuk inferensi kausal?
Dalam semua konteks, saya akrab dengan validasi silang. Ini hanya digunakan dengan tujuan meningkatkan akurasi prediksi. Bisakah logika validasi silang diperluas dalam memperkirakan hubungan yang tidak memihak antar variabel? Sementara makalah ini oleh Richard Berk menunjukkan penggunaan sampel tahan untuk pemilihan parameter dalam model regresi "final" (dan menunjukkan mengapa pemilihan …

5
Analisis seri waktu validasi silang
Saya telah menggunakan paket caret dalam R untuk membangun model prediksi untuk klasifikasi dan regresi. Caret menyediakan antarmuka terpadu untuk menyetel model hiper-parameter dengan validasi silang atau strapping boot. Misalnya, jika Anda sedang membangun model 'tetangga terdekat' yang sederhana untuk klasifikasi, berapa banyak tetangga yang harus Anda gunakan? 2? 10? …

1
Kapan validasi silang bersarang benar-benar diperlukan dan dapat membuat perbedaan praktis?
Ketika menggunakan validasi silang untuk melakukan pemilihan model (seperti misalnya penyetelan hyperparameter) dan untuk menilai kinerja model terbaik, seseorang harus menggunakan validasi silang bersarang . Loop luar adalah untuk menilai kinerja model, dan loop dalam adalah untuk memilih model terbaik; model dipilih pada setiap set latihan luar (menggunakan loop CV …


3
PCA dan split kereta / tes
Saya memiliki dataset yang memiliki beberapa set label biner. Untuk setiap set label, saya melatih classifier, mengevaluasinya dengan validasi silang. Saya ingin mengurangi dimensi menggunakan analisis komponen utama (PCA). Pertanyaanku adalah: Apakah mungkin untuk melakukan PCA satu kali untuk seluruh dataset dan kemudian menggunakan dataset baru dengan dimensi yang lebih …

2
Pemilihan model dan validasi silang: Cara yang benar
Ada banyak utas di CrossValidated pada topik pemilihan model dan validasi silang. Berikut ini beberapa di antaranya: Validasi silang internal vs eksternal dan pemilihan model @ DikranMarsupial ini jawaban atas untuk seleksi Fitur dan cross-validasi Namun, jawaban atas utas tersebut cukup umum dan sebagian besar menyoroti masalah dengan pendekatan khusus …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.