Misalkan saya melatih beberapa model pada set pelatihan, pilih yang terbaik menggunakan set validasi silang dan kinerja yang diukur pada set tes. Jadi sekarang saya punya satu model terbaik akhir. Haruskah saya melatihnya pada semua data saya yang tersedia atau solusi pengiriman yang hanya dilatih pada set pelatihan? Jika yang terakhir, lalu mengapa?
UPDATE: Seperti yang dicatat @ P.Windridge, pengiriman model yang dilatih ulang pada dasarnya berarti pengiriman model tanpa validasi. Tetapi kami dapat melaporkan kinerja uji set dan setelah itu melatih kembali model pada data lengkap dengan benar mengharapkan kinerja menjadi lebih baik - karena kami menggunakan model terbaik kami ditambah lebih banyak data. Masalah apa yang bisa muncul dari metodologi seperti itu?