Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin?
Saya akan memilih secara intuitif
- Pelatihan menetapkan ukuran 50
- Validasi silang mengatur ukuran 25, dan
- Ukuran tes 25.
Tapi mungkin ini lebih atau kurang masuk akal. Bagaimana saya harus benar-benar memutuskan nilai-nilai ini? Bolehkah saya mencoba opsi yang berbeda (meskipun saya kira itu tidak begitu disukai ... peningkatan kemungkinan belajar berlebihan)?
Bagaimana jika saya memiliki lebih dari dua kelas?