Saya harus berurusan dengan masalah klasifikasi teks. Perayap web merayapi laman web dari domain tertentu dan untuk setiap laman web saya ingin mengetahui apakah itu milik hanya satu kelas tertentu atau tidak. Yaitu, jika saya menyebut kelas ini Positif , setiap laman web yang dirayapi termasuk kelas Positif atau kelas Non Positif .
Saya sudah memiliki satu set pelatihan besar halaman web untuk kelas Positive . Tetapi bagaimana cara membuat set pelatihan untuk kelas Non-Positif yang representatif mungkin? Maksudku, pada dasarnya aku bisa menggunakan semuanya untuk kelas itu. Bisakah saya mengumpulkan beberapa halaman arbitrer yang jelas bukan milik kelas Positive ? Saya yakin kinerja algoritme klasifikasi teks (saya lebih suka memanfaatkan algoritme Naive Bayes) sangat bergantung pada laman web mana yang saya pilih untuk kelas Non-Positif .
Jadi apa yang harus saya lakukan? Bisakah seseorang tolong beri saya saran? Terima kasih banyak!