Bagaimana memilih pelatihan, validasi silang, dan ukuran set uji untuk data ukuran sampel kecil?


10

Asumsikan saya memiliki ukuran sampel yang kecil, misalnya N = 100, dan dua kelas. Bagaimana saya harus memilih pelatihan, validasi silang, dan ukuran set tes untuk pembelajaran mesin?

Saya akan memilih secara intuitif

  • Pelatihan menetapkan ukuran 50
  • Validasi silang mengatur ukuran 25, dan
  • Ukuran tes 25.

Tapi mungkin ini lebih atau kurang masuk akal. Bagaimana saya harus benar-benar memutuskan nilai-nilai ini? Bolehkah saya mencoba opsi yang berbeda (meskipun saya kira itu tidak begitu disukai ... peningkatan kemungkinan belajar berlebihan)?

Bagaimana jika saya memiliki lebih dari dua kelas?


2
100 terlalu kecil untukku. Saya akan memilih strategi cuti-keluar untuk validasi silang dan evaluasi tes.
Memming

Saya belum melihat literatur tentang ini (ukuran sampel minimum untuk validasi). Tidak yakin kenapa. Sepertinya masalah penting.
charles

Jawaban:


15

+1 murni untuk saran tentang optimasi parameter dan kompleksitas model. tetapi semua saran ini fantastis.
charles

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.