Saya mencoba untuk mengklasifikasikan pesan ke dalam kategori yang berbeda menggunakan SVM. Saya telah menyusun daftar kata / simbol yang diinginkan dari set pelatihan.
Untuk setiap vektor, yang mewakili pesan, saya mengatur baris yang sesuai 1
jika kata tersebut ada:
"corpus" adalah: [mary, little, lamb, star, twinkle]
pesan pertama: "mary had a little lamb" -> [1 1 1 0 0]
pesan kedua: "twinkle little star" -> [0 1 0 1 1]
Saya pikir ini adalah pengaturan yang cukup umum dengan SVM, tetapi pertanyaan saya adalah, dengan ribuan kata di set, bagaimana jika hanya ada 1-2 kata per pesan yang benar-benar muncul? Apakah ketergantungan linier dari himpunan vektor pelatihan saya akan memengaruhi kemampuan algoritma untuk menyatu?
flexmix
- meskipun, saya sudah "Belajar R" di kalender saya selama beberapa tahun sekarang!