Tentu saja Anda juga harus memutuskan tentang rasio pemisahan untuk resampling (ganda) ...
Namun, resampling biasanya berfungsi untuk berbagai rasio pemisahan, jika Anda ingat
- tidak melakukan cuti jika itu akan mengurangi jumlah kemungkinan lari yang berbeda
- sisakan cukup kasus pelatihan pada set pelatihan terdalam sehingga algoritma traing memiliki peluang yang layak untuk menghasilkan model yang berguna.
- semakin banyak kasus independen yang Anda miliki, semakin tidak penting pertimbangan ini.
Dan bagaimana jika Anda bekerja pada data skala yang lebih besar (tetapi bukan data besar) dari 10.000 <N <1000000?
Apa yang dapat Anda lakukan jika Anda tidak yakin perlunya dilakukan resampling adalah: resample beberapa kali. Cukup sehingga Anda bisa mengukur apakah resampling itu perlu.
- periksa stabilitas prediksi Anda
- periksa stabilitas parameter model Anda
Dengan hasil ini, Anda dapat memutuskan apakah Anda harus menambahkan lebih banyak iterasi resampling atau apakah semuanya baik-baik saja.