Saya pikir Anda kehilangan sesuatu yang masih dalam pemahaman Anda tentang tujuan validasi silang.
Mari kita luruskan beberapa terminologi, umumnya ketika kita mengatakan 'model' kita merujuk pada metode tertentu untuk menggambarkan bagaimana beberapa data input berhubungan dengan apa yang kita coba prediksi. Kami biasanya tidak menyebut contoh tertentu dari metode itu sebagai model yang berbeda. Jadi, Anda mungkin mengatakan 'Saya memiliki model regresi linier' tetapi Anda tidak akan menyebut dua set berbeda dari koefisien yang terlatih, model yang berbeda. Setidaknya tidak dalam konteks pemilihan model.
Jadi, ketika Anda melakukan validasi silang K-fold, Anda menguji seberapa baik model Anda bisa dilatih oleh beberapa data dan kemudian memprediksi data yang belum terlihat. Kami menggunakan validasi silang untuk ini karena jika Anda berlatih menggunakan semua data yang Anda miliki, tidak ada lagi yang tersisa untuk pengujian. Anda dapat melakukan ini satu kali, katakanlah dengan menggunakan 80% data untuk berlatih dan 20% untuk menguji, tetapi bagaimana jika 20% yang Anda pilih untuk diuji ternyata mengandung banyak poin yang sangat mudah (atau sangat sulit) untuk memprediksi? Kami tidak akan menghasilkan estimasi terbaik dari kemampuan model untuk belajar dan memprediksi.
Kami ingin menggunakan semua data. Jadi untuk melanjutkan contoh perpecahan 80/20 di atas, kami akan melakukan validasi silang 5 kali lipat dengan melatih model 5 kali pada 80% data dan pengujian pada 20%. Kami memastikan bahwa setiap titik data berakhir pada set tes 20% tepat satu kali. Karena itu kami telah menggunakan setiap titik data yang kami miliki untuk berkontribusi pada pemahaman tentang seberapa baik model kami melakukan tugas belajar dari beberapa data dan memprediksi beberapa data baru.
Tetapi tujuan validasi silang bukanlah untuk menghasilkan model akhir kami. Kami tidak menggunakan 5 contoh model terlatih ini untuk melakukan prediksi nyata. Untuk itu kami ingin menggunakan semua data kami harus datang dengan model terbaik. Tujuan validasi silang adalah pengecekan model, bukan pembangunan model.
Sekarang, katakanlah kita memiliki dua model, katakanlah model regresi linier dan jaringan saraf. Bagaimana kita bisa mengatakan model mana yang lebih baik? Kita dapat melakukan validasi silang K-fold dan melihat mana yang terbukti lebih baik dalam memprediksi poin set tes. Tetapi begitu kami telah menggunakan validasi silang untuk memilih model yang berkinerja lebih baik, kami melatih model itu (apakah itu regresi linier atau jaringan saraf) pada semua data. Kami tidak menggunakan contoh model aktual yang kami latih selama validasi silang untuk model prediksi akhir kami.
Perhatikan bahwa ada teknik yang disebut agregasi bootstrap (biasanya disingkat menjadi 'bagging') yang tidak dengan cara menggunakan contoh model yang diproduksi dengan cara yang mirip dengan validasi silang untuk membangun model ensembel, tetapi itu adalah teknik canggih di luar cakupan dari pertanyaan Anda di sini.