Anda akan terkejut mengetahui bahwa 80/20 adalah rasio yang cukup umum terjadi, sering disebut sebagai prinsip Pareto . Ini biasanya taruhan yang aman jika Anda menggunakan rasio itu.
Namun, tergantung pada metodologi pelatihan / validasi yang Anda gunakan, rasionya mungkin berubah. Misalnya: jika Anda menggunakan validasi silang 10 kali lipat, maka Anda akan berakhir dengan set validasi 10% di setiap lipatan.
Ada beberapa penelitian tentang berapa rasio yang tepat antara set pelatihan dan set validasi :
Fraksi pola yang disediakan untuk set validasi harus berbanding terbalik dengan akar kuadrat dari jumlah parameter bebas yang dapat disesuaikan.
Dalam kesimpulannya mereka menentukan formula:
Set validasi (v) ke set pelatihan (t) rasio ukuran, v / t, skala seperti ln (N / h-maks), di mana N adalah jumlah keluarga pengenal dan h-max adalah kompleksitas terbesar dari keluarga tersebut.
Yang mereka maksud dengan kompleksitas adalah:
Setiap kelompok pengenal ditandai dengan kompleksitasnya, yang mungkin terkait atau tidak dengan dimensi VC , panjang deskripsi, jumlah parameter yang dapat disesuaikan, atau ukuran kompleksitas lainnya.
Mengambil aturan pertama (set validasi harus berbanding terbalik dengan akar kuadrat dari jumlah parameter yang dapat disesuaikan gratis), Anda dapat menyimpulkan bahwa jika Anda memiliki 32 parameter yang dapat disesuaikan, akar kuadrat dari 32 adalah ~ 5,65, fraksi harus 1 / 5.65 atau 0.177 (v / t). Sekitar 17,7% harus dicadangkan untuk validasi dan 82,3% untuk pelatihan.