Hai, ini adalah pertanyaan pertama saya di tumpukan Ilmu Data. Saya ingin membuat algoritma untuk klasifikasi teks. Misalkan saya punya satu set besar teks dan artikel. Mari kita katakan sekitar 5000 teks biasa. Saya pertama kali menggunakan fungsi sederhana untuk menentukan frekuensi keempat kata karakter di atas. Saya kemudian menggunakan ini sebagai fitur dari setiap sampel pelatihan. Sekarang saya ingin algoritme saya dapat mengelompokkan set pelatihan sesuai dengan fitur mereka, yang di sini adalah frekuensi setiap kata dalam artikel. (Perhatikan bahwa dalam contoh ini, setiap artikel akan memiliki fitur uniknya sendiri karena setiap artikel memiliki fitur yang berbeda, misalnya artikel memiliki 10 "air dan 23" murni "dan yang lain memiliki 8" politik "dan 14" leverage "). Bisakah Anda menyarankan algoritma pengelompokan terbaik untuk contoh ini?