Saya sedang mengerjakan proyek di R di mana saya memiliki sekitar 1200 email dari sebuah perusahaan, yang sebagian besar diberi label kelas atau kelas , yang merupakan jenis permintaan. Sekitar 1000 email diberi label kelas , dan 200 email berlabel Tujuan saya adalah menggunakan pembelajaran terawasi untuk membangun model yang akan mengklasifikasikan email baru.
Tetapi, setelah banyak pra-pemrosesan (parsing, menghapus stopwords, dll.), Dan mencoba algoritma yang khas (SVM, pohon keputusan, dll.) Pada matriks istilah dokumen, matriks kebingungan saya mengandung banyak positif palsu dan negatif palsu, tetapi hanya beberapa negatif palsu dengan SVM.
Saya bertanya-tanya bagaimana saya bisa meningkatkan hasil saya? Apakah saya perlu menggunakan representasi fitur oversampling, atau bi-gram? Saya kira masalahnya adalah bahwa topik kedua kategori sangat dekat.