Saat Anda mencoba menyesuaikan model dengan set data besar, saran umum adalah untuk membagi data menjadi tiga bagian: pelatihan, validasi, dan set data uji.
Ini karena model biasanya memiliki tiga "level" parameter: "parameter" pertama adalah kelas model (misalnya SVM, jaringan saraf, hutan acak), set parameter kedua adalah parameter "regularisasi" atau "hyperparameters" ( misalnya koefisien penalti laso, pilihan kernel, struktur jaringan saraf) dan set ketiga adalah apa yang biasanya dianggap sebagai "parameter" (misalnya koefisien untuk kovariat.)
Diberikan kelas model dan pilihan hiperparameter, seseorang memilih parameter dengan memilih parameter yang meminimalkan kesalahan pada set pelatihan. Diberikan kelas model, satu menyetel hyperparameters dengan meminimalkan kesalahan pada set validasi. Seseorang memilih kelas model berdasarkan kinerja pada set tes.
Tetapi mengapa tidak lebih banyak partisi? Seringkali seseorang dapat membagi hyperparameter menjadi dua kelompok, dan menggunakan "validasi 1" agar sesuai dengan yang pertama dan "validasi 2" agar sesuai dengan yang kedua. Atau seseorang bahkan bisa memperlakukan ukuran data pelatihan / validasi data sebagai hyperparameter yang akan disetel.
Apakah ini sudah menjadi praktik yang umum di beberapa aplikasi? Apakah ada pekerjaan teoretis tentang pembagian data yang optimal?