Pertanyaan yang diberi tag «cross-validation»

Berulang kali menahan subset data selama pemasangan model untuk mengukur kinerja model pada subset data yang ditahan.




4
Pilihan K dalam validasi silang K-fold
Saya telah menggunakan KKK ganda lintas validasi beberapa kali sekarang untuk mengevaluasi kinerja beberapa algoritma belajar, tapi aku selalu bingung bagaimana aku harus memilih nilai .KKK Saya sering melihat dan menggunakan nilai K= 10K=10K = 10 , tetapi ini tampaknya benar-benar sewenang-wenang bagi saya, dan sekarang saya hanya menggunakan 101010 …


3
Validasi silang bersarang untuk pemilihan model
Bagaimana cara menggunakan validasi silang bersarang untuk pemilihan model ? Dari apa yang saya baca online, CV bersarang berfungsi sebagai berikut: Ada loop CV dalam, di mana kami dapat melakukan pencarian grid (misalnya menjalankan K-fold untuk setiap model yang tersedia, misalnya kombinasi hyperparameter / fitur) Ada lingkaran CV luar, di …

7
Bias dan varians dalam validasi lintas keluar-keluar-vs vs K-fold
Bagaimana metode validasi silang berbeda dibandingkan dalam hal varian model dan bias? Pertanyaan saya sebagian dimotivasi oleh utas ini: Jumlah lipatan yang optimal dalam validasi silang lipat: apakah CV cuti-keluar-selalu merupakan pilihan terbaik? KKKK. Jawaban di sana menunjukkan bahwa model yang dipelajari dengan validasi silang tinggalkan-keluar-satu memiliki varians yang lebih …


3
Pemilihan fitur dan validasi silang
Saya baru-baru ini banyak membaca di situs ini (@Aniko, @Dikran Marsupial, @Erik) dan di tempat lain tentang masalah overfitting yang terjadi dengan validasi silang - (Smialowski dkk 2010 Bioinformatika, Hastie, Elemen pembelajaran statistik). Sarannya adalah bahwa setiap pemilihan fitur yang diawasi (menggunakan korelasi dengan label kelas) dilakukan di luar estimasi …

6
Pemilihan fitur untuk model "final" saat melakukan validasi silang dalam pembelajaran mesin
Saya agak bingung tentang pemilihan fitur dan pembelajaran mesin dan saya bertanya-tanya apakah Anda dapat membantu saya. Saya memiliki dataset microarray yang diklasifikasikan ke dalam dua kelompok dan memiliki ribuan fitur. Tujuan saya adalah mendapatkan sejumlah kecil gen (fitur saya) (10-20) dalam tanda tangan yang secara teori saya akan dapat …

5
Menggunakan k-fold cross-validation untuk pemilihan model deret waktu
Pertanyaan: Saya ingin memastikan sesuatu, apakah penggunaan k-fold cross-validation dengan deret waktu sangat mudah, atau apakah orang perlu memberi perhatian khusus sebelum menggunakannya? Latar Belakang: Saya memodelkan serangkaian waktu 6 tahun (dengan rantai semi-markov), dengan sampel data setiap 5 menit. Untuk membandingkan beberapa model, saya menggunakan validasi silang 6 kali …

1
Bagaimana cara membagi dataset untuk validasi silang, kurva pembelajaran, dan evaluasi akhir?
Apa strategi yang tepat untuk memisahkan dataset? Saya meminta umpan balik pada pendekatan berikut (tidak pada parameter individu seperti test_sizeatau n_iter, tetapi jika saya menggunakan X, y, X_train, y_train, X_test, dan y_testtepat dan jika urutan masuk akal): (memperluas contoh ini dari dokumentasi scikit-learn) 1. Muat dataset from sklearn.datasets import load_digits …


8
Bagaimana saya bisa membantu memastikan data pengujian tidak bocor ke dalam data pelatihan?
Misalkan kita memiliki seseorang yang membangun model prediktif, tetapi seseorang belum tentu berpengalaman dalam prinsip-prinsip statistik atau pembelajaran mesin yang tepat. Mungkin kita membantu orang itu saat mereka sedang belajar, atau mungkin orang itu menggunakan semacam paket perangkat lunak yang membutuhkan pengetahuan minimal untuk digunakan. Sekarang orang ini mungkin sangat …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.