Saya memiliki 2 kumpulan data, satu dengan contoh positif dari apa yang ingin saya deteksi, dan satu dengan contoh tidak berlabel. Metode apa yang bisa saya gunakan?
Sebagai contoh, misalkan kita ingin memahami mendeteksi email spam berdasarkan beberapa karakteristik email terstruktur. Kami memiliki satu dataset 10.000 email spam, dan satu dataset 100000 email yang kami tidak tahu apakah itu spam atau bukan.
Bagaimana kita bisa mengatasi masalah ini (tanpa memberi label secara manual salah satu data yang tidak berlabel)?
Apa yang dapat kita lakukan jika kita memiliki informasi tambahan tentang proporsi spam dalam data yang tidak berlabel (yaitu bagaimana jika kita memperkirakan bahwa antara 20-40% dari 100.000 email yang tidak berlabel adalah spam)?