Perangkat validasi yang lebih besar memberikan perkiraan kinerja out-of-sample yang lebih akurat. Tetapi seperti yang Anda perhatikan, pada titik tertentu perkiraan itu mungkin seakurat yang Anda butuhkan, dan Anda dapat membuat beberapa prediksi kasar mengenai ukuran sampel validasi yang Anda perlukan untuk mencapai titik itu.
Untuk akurasi klasifikasi yang benar / salah, Anda dapat menghitung kesalahan standar estimasi sebagai (standar deviasi dari variabel Bernouilli), di manapadalah probabilitas klasifikasi yang benar, dannp ( 1 - p ) / n---------√haln adalah ukuran set validasi. Tentu saja Anda tidak tahu , tetapi Anda mungkin memiliki beberapa gagasan tentang jangkauannya. Misalnya, Anda mengharapkan akurasi antara 60-80%, dan Anda ingin perkiraan Anda memiliki kesalahan standar lebih kecil dari 0,1%:
√hal
Berapa besar seharusnyan(ukuran set validasi)? Untukp=0,6kita mendapatkan:
n> 0,6 - 0,6 2
p ( 1 - p )/ n---------√< 0,001
np = 0,6
Untuk
p=0,8kita dapatkan:
n>0,8-0,82n > 0,6 - 0,620,0012= 240 , 000
p = 0,8n > 0,8 - 0,820,0012= 160 , 000
Jadi ini memberi tahu kami bahwa Anda dapat menggunakan kurang dari 5% dari 5 juta sampel data Anda, untuk validasi. Persentase ini turun jika Anda mengharapkan kinerja yang lebih tinggi, atau terutama jika Anda puas dengan kesalahan standar yang lebih rendah dari perkiraan kinerja out-of-sample Anda (misalnya dengan
dan untuk se <1%, Anda hanya perlu 2100 sampel validasi , atau kurang dari dua puluh persen dari data Anda).
p = 0,7
Perhitungan ini juga menunjukkan poin yang dibuat oleh Tim dalam jawabannya, bahwa keakuratan estimasi Anda bergantung pada ukuran absolut set validasi Anda (yaitu pada ), daripada ukurannya relatif terhadap set pelatihan.n
(Juga saya dapat menambahkan bahwa saya mengasumsikan pengambilan sampel representatif di sini. Jika data Anda sangat heterogen, Anda mungkin perlu menggunakan set validasi yang lebih besar hanya untuk memastikan bahwa data validasi mencakup semua kondisi yang sama dll. Seperti data kereta & tes Anda. )