5
Haruskah saya menggunakan dataset 'seimbang' atau dataset 'representatif'?
Tugas 'pembelajaran mesin' saya adalah memisahkan lalu lintas Internet jinak dari lalu lintas jahat. Dalam skenario dunia nyata, sebagian besar (katakanlah 90% atau lebih) dari lalu lintas Internet tidak berbahaya. Jadi saya merasa bahwa saya harus memilih pengaturan data yang serupa untuk melatih model saya juga. Tetapi saya menemukan satu …