Tugas 'pembelajaran mesin' saya adalah memisahkan lalu lintas Internet jinak dari lalu lintas jahat. Dalam skenario dunia nyata, sebagian besar (katakanlah 90% atau lebih) dari lalu lintas Internet tidak berbahaya. Jadi saya merasa bahwa saya harus memilih pengaturan data yang serupa untuk melatih model saya juga. Tetapi saya menemukan satu atau dua makalah penelitian (di bidang pekerjaan saya) yang telah menggunakan pendekatan data "penyeimbangan kelas" untuk melatih para model, menyiratkan jumlah yang sama dari jumlah lalu lintas yang berbahaya dan berbahaya.
Secara umum, jika saya sedang membangun model pembelajaran mesin, haruskah saya mencari dataset yang mewakili masalah dunia nyata, atau apakah dataset seimbang lebih cocok untuk membangun model (karena pengklasifikasi tertentu tidak berperilaku baik dengan ketidakseimbangan kelas, atau karena alasan lain tidak saya kenal)?
Bisakah seseorang menjelaskan pro dan kontra dari kedua pilihan dan bagaimana memutuskan mana yang harus dipilih?