Pertanyaan saya: apakah saya harus melakukan CV bahkan untuk kumpulan data yang relatif besar?
Saya memiliki satu set data yang relatif besar dan saya akan menerapkan algoritma pembelajaran mesin pada set data.
Karena PC saya tidak cepat, CV (dan pencarian grid) terkadang memakan waktu terlalu lama. Secara khusus SVM tidak pernah berakhir karena banyak parameter penyetelan. Jadi jika saya melakukan CV, maka saya perlu memilih data yang relatif kecil.
Di sisi lain set validasi juga harus besar, jadi saya pikir itu adalah ide yang baik untuk menggunakan set validasi yang memiliki ukuran yang sama (atau lebih besar) dengan set pelatihan. (Yaitu alih-alih CV, saya menggunakan set validasi besar untuk penyetelan parameter.)
Jadi saya sekarang memiliki setidaknya dua opsi.
- lakukan CV pada set data kecil.
- menggunakan set pelatihan yang relatif besar dan set validasi tanpa CV.
- ide lain.
Apa ide terbaik? Pendapat teoritis atau praktis keduanya diterima.