Misalkan saya ingin mempelajari classifier yang memprediksi jika email adalah spam. Dan anggaplah hanya 1% dari email adalah spam.
Hal termudah untuk dilakukan adalah mempelajari pengklasifikasi sepele yang mengatakan tidak ada email yang merupakan spam. Penggolong ini akan memberi kita akurasi 99%, tetapi tidak akan mempelajari sesuatu yang menarik, dan akan memiliki tingkat negatif palsu 100%.
Untuk mengatasi masalah ini, orang-orang mengatakan kepada saya untuk "downsample", atau belajar pada subset data di mana 50% dari contoh adalah spam dan 50% bukan spam.
Tapi saya khawatir dengan pendekatan ini, karena begitu kita membangun classifier ini dan mulai menggunakannya pada kumpulan email yang nyata (sebagai lawan dari set tes 50/50), mungkin memprediksi bahwa banyak email adalah spam ketika mereka ' benar-benar tidak. Hanya karena terbiasa melihat lebih banyak spam daripada yang sebenarnya ada dalam dataset.
Jadi bagaimana kita memperbaiki masalah ini?
("Upsampling," atau mengulangi contoh pelatihan positif beberapa kali sehingga 50% dari data adalah contoh pelatihan positif, tampaknya menderita masalah yang sama.)