Keduanya benar dalam konteks mereka sendiri. Mereka menggambarkan dua cara pemilihan model dalam situasi yang berbeda.
Secara umum, ketika Anda melakukan pemilihan dan pengujian model, data Anda dibagi menjadi tiga bagian, perangkat pelatihan, perangkat validasi dan perangkat pengujian. Anda menggunakan set pelatihan Anda untuk melatih model yang berbeda, memperkirakan kinerja pada set validasi Anda, lalu pilih model dengan kinerja optimal dan mengujinya pada set pengujian Anda.
Di sisi lain, jika Anda menggunakan validasi silang K-fold untuk memperkirakan kinerja suatu model, data Anda kemudian dibagi menjadi K fold, Anda mengulangi lipatan K dan setiap kali menggunakan satu lipatan sebagai pengujian (atau validasi) atur dan gunakan lipatan sisanya (K-1) sebagai set latihan. Kemudian Anda rata-rata di semua lipatan untuk mendapatkan perkiraan kinerja pengujian model Anda. Inilah yang dimaksud halaman Wikipedia.
Tetapi perlu diingat bahwa ini untuk menguji model tertentu, jika Anda memiliki beberapa model kandidat dan ingin melakukan pemilihan model juga, Anda harus memilih model hanya dengan set pelatihan Anda untuk menghindari kesalahan logika melingkar yang halus ini.. Jadi, Anda selanjutnya membagi (K-1) lipatan 'data latihan' menjadi dua bagian, satu untuk pelatihan dan satu untuk validasi. Ini berarti Anda melakukan 'validasi silang' ekstra terlebih dahulu untuk memilih model optimal dalam lipatan (K-1), dan kemudian Anda menguji model optimal ini pada lipatan pengujian Anda. Dengan kata lain, Anda melakukan validasi silang dua tingkat, satu adalah validasi silang K-fold secara umum, dan dalam setiap loop validasi silang, ada validasi silang berlipat ganda (K-1) untuk pemilihan model. Kemudian Anda memiliki apa yang Anda nyatakan dalam pertanyaan Anda, 'Dari k subsampel satu subsampel dipertahankan sebagai data validasi, satu subsampel lainnya dipertahankan sebagai data uji, dan subsampel k-2 digunakan sebagai data pelatihan.'