Kumpulan data mana yang tersedia secara bebas yang dapat saya gunakan untuk melatih classifier teks?
Kami mencoba untuk meningkatkan keterlibatan pengguna kami dengan merekomendasikan konten yang paling terkait untuknya, jadi kami pikir. Jika kami mengklasifikasikan konten kami berdasarkan kantong kata yang telah ditentukan, kami dapat merekomendasikan kepadanya untuk melibatkan konten dengan mendapatkan umpan baliknya pada jumlah acak posting yang sudah diklasifikasikan sebelum.
Kita dapat menggunakan info ini untuk merekomendasikan baginya pulsa berlabel kelas-kelas itu. Tetapi kami menemukan Jika kami menggunakan sekumpulan kata yang tidak ditentukan yang terkait dengan konten kami, vektor fitur akan penuh dengan nol, juga kategori mungkin tidak relevan dengan konten kami. jadi karena alasan itu kami mencoba solusi lain yang akan mengelompokkan konten kami dan tidak mengklasifikasikannya.
Terima kasih :)