Saya menggunakan pengindeksan semantik laten untuk menemukan kesamaan antara dokumen ( terima kasih, JMS! )
Setelah pengurangan dimensi, saya sudah mencoba k-means clustering untuk mengelompokkan dokumen menjadi cluster, yang berfungsi dengan sangat baik. Tapi saya ingin melangkah lebih jauh, dan memvisualisasikan dokumen sebagai satu set node, di mana jarak antara dua node berbanding terbalik dengan kesamaan mereka (node yang sangat mirip saling berdekatan).
Itu mengejutkan saya bahwa saya tidak dapat secara akurat mengurangi kesamaan matriks ke grafik 2 dimensi karena data saya> 2 dimensi. Jadi pertanyaan pertama saya: apakah ada cara standar untuk melakukan ini?
Bisakah saya mengurangi data saya menjadi dua dimensi dan kemudian memplotnya sebagai sumbu X dan Y, dan apakah itu cukup untuk sekelompok ~ 100-200 dokumen? Jika ini solusinya, apakah lebih baik mengurangi data saya menjadi 2 dimensi dari awal, atau adakah cara untuk memilih dua dimensi "terbaik" dari data multi dimensi saya?
Saya menggunakan Python dan perpustakaan gensim jika itu membuat perbedaan.