Saya ingin tahu jenis model cross-validasi mana yang akan dipilih untuk masalah klasifikasi: K-fold atau sub-sampling acak (bootstrap sampling)?
Tebakan terbaik saya adalah menggunakan 2/3 dari kumpulan data (yaitu ~ 1000 item) untuk pelatihan dan 1/3 untuk validasi.
Dalam hal ini K-fold hanya memberikan tiga iterasi (lipatan), yang tidak cukup untuk melihat kesalahan rata-rata yang stabil.
Di sisi lain saya tidak suka fitur pengambilan sampel acak: bahwa beberapa item tidak akan pernah dipilih untuk pelatihan / validasi, dan beberapa akan digunakan lebih dari satu kali.
Algoritma klasifikasi yang digunakan: regresi hutan & logistik acak.