Saya ingin menggunakan Alokasi Dirichlet Laten untuk proyek dan saya menggunakan Python dengan perpustakaan gensim. Setelah menemukan topik saya ingin mengelompokkan dokumen menggunakan algoritma seperti k-means (Idealnya saya ingin menggunakan yang baik untuk tumpang tindih cluster sehingga rekomendasi pun disambut). Saya berhasil mendapatkan topik tetapi dalam bentuk:
0,041 * Menteri + 0,041 * Kunci + 0,041 * momen + 0,041 * kontroversial + 0,041 * Perdana
Untuk menerapkan algoritma pengelompokan, dan koreksi saya jika saya salah, saya yakin saya harus menemukan cara untuk mewakili setiap kata sebagai angka menggunakan tfidf atau word2vec.
Apakah Anda punya ide tentang bagaimana saya dapat "menghapus" informasi tekstual dari misalnya daftar, untuk melakukannya dan kemudian mengembalikannya untuk membuat perkalian yang sesuai?
Misalnya cara saya melihatnya jika kata Menteri memiliki bobot tfidf 0,042 dan seterusnya untuk kata lain dalam topik yang sama saya harus menghitung sesuatu seperti:
0,041 * 0,42 + ... + 0,041 * tfidf (Perdana) dan dapatkan hasil yang nantinya akan digunakan untuk mengelompokkan hasil.
Terima kasih atas waktu Anda.