Demi kesederhanaan, katakanlah saya sedang mengerjakan contoh klasik dari email spam / bukan-spam.
Saya memiliki 20000 email. Dari jumlah tersebut, saya tahu bahwa 2000 adalah spam tetapi saya tidak memiliki contoh email bukan-spam. Saya ingin memprediksi apakah 18.000 sisanya adalah spam atau tidak. Idealnya, hasil yang saya cari adalah probabilitas (atau nilai-p) bahwa email tersebut adalah spam.
Algoritma apa yang dapat saya gunakan untuk membuat prediksi yang masuk akal dalam situasi ini?
Saat ini, saya sedang memikirkan metode berbasis jarak yang akan memberi tahu saya seberapa mirip email saya dengan email spam yang dikenal. Opsi apa yang saya miliki?
Secara lebih umum, dapatkah saya menggunakan metode pembelajaran yang diawasi, atau apakah saya perlu memiliki kasus-kasus negatif dalam pelatihan saya untuk melakukannya? Apakah saya terbatas pada pendekatan pembelajaran tanpa pengawasan? Bagaimana dengan metode semi-diawasi?