Ini benar-benar tergantung pada jumlah data yang Anda miliki, biaya spesifik metode dan bagaimana Anda ingin hasilnya.
Beberapa contoh:
Jika Anda memiliki sedikit data, Anda mungkin ingin menggunakan validasi silang (k-fold, leave-one-out, dll.) Model Anda mungkin tidak akan mengambil banyak sumber daya untuk dilatih dan diuji. Ini adalah cara yang baik untuk mendapatkan hasil maksimal dari data Anda
Anda memiliki banyak data: Anda mungkin ingin mengambil set tes yang cukup besar, memastikan bahwa akan ada sedikit kemungkinan bahwa beberapa sampel aneh akan memberikan banyak variasi pada hasil Anda. Berapa banyak data yang harus Anda ambil? Itu sepenuhnya tergantung pada data dan model Anda. Sebagai contoh, dalam pengenalan ucapan, jika Anda mengambil terlalu banyak data (misalkan 3000 kalimat), percobaan Anda akan memakan waktu berhari-hari, karena faktor waktu nyata 7-10 adalah umum. Jika Anda mengambil terlalu sedikit, itu terlalu tergantung pada speaker yang Anda pilih (yang tidak diizinkan dalam set pelatihan).
Ingat juga, dalam banyak kasus itu baik untuk memiliki set validasi / pengembangan juga!