Anda memang menggambarkan dengan benar cara bekerja dengan crossvalidation. Bahkan, Anda 'beruntung' memiliki set validasi yang masuk akal pada akhirnya, karena seringkali, crossvalidation digunakan untuk mengoptimalkan model, tetapi tidak ada validasi "nyata" yang dilakukan.
Seperti yang dikatakan @Simon Stelling dalam komentarnya, crossvalidation akan menyebabkan kesalahan estimasi yang lebih rendah (yang masuk akal karena Anda terus-menerus menggunakan kembali data), tetapi untungnya ini adalah kasus untuk semua model, jadi, cegah malapetaka (yaitu: kesalahan hanya berkurang sedikit untuk model "buruk", dan lebih banyak untuk model "baik"), memilih model yang berkinerja terbaik pada kriteria yang divalidasi silang, biasanya juga akan menjadi yang terbaik "untuk nyata".
Metode yang kadang-kadang digunakan untuk mengoreksi kesalahan yang lebih rendah, terutama jika Anda mencari model parsimoneous, adalah memilih model terkecil / metode paling sederhana yang kesalahannya divalidasi silang dalam satu SD dari optimal (crossvalidated). Sebagai crossvalidation itu sendiri, ini adalah heuristik, jadi harus digunakan dengan hati-hati (jika ini pilihan: buat plot kesalahan Anda terhadap parameter tuning Anda: ini akan memberi Anda beberapa gagasan apakah Anda memiliki hasil yang dapat diterima)
Mengingat bias kesalahan yang menurun, penting untuk tidak mempublikasikan kesalahan atau ukuran kinerja lainnya dari crossvalidation tanpa menyebutkan bahwa ini berasal dari crossvalidation (walaupun, jujur saja: Saya telah melihat terlalu banyak publikasi yang tidak menyebutkan bahwa ukuran kinerja diperoleh dari memeriksa kinerja pada dataset asli juga --- jadi menyebutkan crossvalidation sebenarnya membuat hasil Anda lebih berharga ). Bagi Anda, ini tidak akan menjadi masalah, karena Anda memiliki set validasi.
Sebuah peringatan terakhir: jika model Anda pas hasil dalam beberapa pesaing dekat, itu adalah ide yang baik untuk melihat penampilan mereka di set validasi Anda setelah itu, tetapi tidak mendasarkan pemilihan model akhir Anda bahwa: Anda dapat di gunakan terbaik ini untuk menenangkan Anda hati nurani, tetapi model "final" Anda harus sudah dipilih sebelum Anda melihat set validasi.
Wrt pertanyaan kedua Anda: Saya percaya Simon telah memberikan semua jawaban yang Anda butuhkan dalam komentarnya, tetapi untuk melengkapi gambarannya: seperti seringnya, trade-off bias-varians yang ikut bermain. Jika Anda tahu bahwa, secara rata-rata, Anda akan mencapai hasil yang benar (tidak memihak), harganya biasanya bahwa setiap perhitungan individual Anda mungkin terletak sangat jauh dari itu (varians tinggi). Di masa lalu, ketidakberpihakan adalah nec plus ultra, di hari-hari saat ini, seseorang telah menerima di kali bias (kecil) (sehingga Anda bahkan tidak tahu bahwa rata-rata perhitungan Anda akan menghasilkan hasil yang benar), jika menghasilkan varian yang lebih rendah. Pengalaman menunjukkan bahwa keseimbangan dapat diterima dengan validasi silang 10 kali lipat. Bagi Anda, bias hanya akan menjadi masalah bagi optimasi model Anda, karena Anda dapat memperkirakan kriteria setelahnya (tidak memihak) pada set validasi. Karena itu, ada sedikit alasan untuk tidak menggunakan crossvalidation.