Dalam beberapa kuliah dan tutorial yang saya lihat, mereka menyarankan untuk membagi data Anda menjadi tiga bagian: pelatihan, validasi, dan tes. Tetapi tidak jelas bagaimana dataset uji harus digunakan, atau bagaimana pendekatan ini lebih baik daripada validasi silang atas seluruh kumpulan data.
Katakanlah kita telah menyimpan 20% data kita sebagai set uji. Kemudian kami mengambil sisanya, membaginya menjadi k lipatan dan, menggunakan cross-validation, kami menemukan model yang membuat prediksi terbaik pada data yang tidak diketahui dari dataset ini. Katakanlah model terbaik yang kami temukan memberi kami akurasi 75% .
Berbagai tutorial dan banyak pertanyaan di berbagai situs web T&J mengatakan bahwa sekarang kami dapat memverifikasi model kami pada set data (tes) yang disimpan. Tetapi saya masih belum bisa mengerti bagaimana tepatnya hal itu dilakukan, atau apa gunanya.
Katakanlah kita memiliki akurasi 70% pada dataset uji. Jadi apa yang akan kita lakukan selanjutnya? Apakah kita mencoba model lain, dan kemudian yang lain, sampai kita akan mendapatkan skor tinggi pada dataset uji kita? Tetapi dalam kasus ini sepertinya kita hanya akan menemukan model yang sesuai dengan set tes terbatas kami (hanya 20%) . Itu tidak berarti bahwa kita akan menemukan model yang terbaik secara umum.
Selain itu, bagaimana kita dapat menganggap skor ini sebagai evaluasi umum model, jika hanya dihitung pada set data yang terbatas? Jika skor ini rendah, mungkin kami kurang beruntung dan memilih data tes "buruk".
Di sisi lain, jika kita menggunakan semua data yang kita miliki dan kemudian memilih model menggunakan k-fold cross-validation, kita akan menemukan model yang membuat prediksi terbaik pada data yang tidak diketahui dari seluruh kumpulan data yang kita miliki.