Saya telah memberi label data yang terdiri dari 10.000 contoh positif, dan 50.000 contoh negatif, sehingga totalnya 60000 contoh. Jelas data ini tidak seimbang.
Sekarang katakanlah saya ingin membuat set validasi saya, dan saya ingin menggunakan 10% dari data saya untuk melakukannya. Pertanyaan saya adalah sebagai berikut:
Haruskah saya memastikan bahwa set validasi saya juga tidak seimbang, (sebagai anggukan untuk distribusi set training yang sebenarnya), atau haruskah saya memastikan set validasi saya seimbang? Jadi misalnya, seandainya set validasi saya dibuat dari:
- 10% contoh positif + 10% negatif, memberikan 1000+ dan 5000- contoh. (Set validasi ini mencerminkan ketidakseimbangan data asli).
- Atau haruskah set validasi dibuat dari katakanlah, 10% positif, memberi 1000+, dan (10/5 = 2%) negatif, juga memberikan 1000 contoh?
(Pertanyaan yang sama untuk set tes).
Tampaknya ada banyak metode tentang cara berlatih dengan data yang tidak seimbang, tetapi tidak ada tempat saya bisa melihat untuk menemukan praktik terbaik tentang apakah set validasi saya juga harus mencerminkan ketidakseimbangan yang asli, atau tidak. Akhirnya, saya TIDAK melakukan cross-validation, saya akan menggunakan set validasi tunggal, dan jaringan saraf.
Terima kasih!