Saya mencoba melakukan pengelompokan tingkat dokumen. Saya membangun matriks frekuensi istilah-dokumen dan saya mencoba mengelompokkan vektor-vektor dimensi tinggi ini menggunakan k-means. Alih-alih langsung mengelompokkan, apa yang saya lakukan adalah pertama-tama menerapkan dekomposisi vektor singular LSA (Latent Semantic Analysis) untuk mendapatkan matriks U, S, Vt, memilih ambang yang sesuai menggunakan plot scree dan pengelompokan yang diterapkan pada matriks yang dikurangi (khususnya Vt karena itu memberi saya informasi konsep-dokumen) yang sepertinya memberi saya hasil yang baik.
Saya pernah mendengar beberapa orang mengatakan SVD (dekomposisi vektor singular) adalah pengelompokan (dengan menggunakan ukuran kesamaan cosinus, dll.) Dan tidak yakin apakah saya dapat menerapkan k-means pada output SVD. Saya pikir itu secara logis benar karena SVD adalah teknik pengurangan dimensionalitas, memberi saya banyak vektor baru. k-means, di sisi lain, akan mengambil jumlah cluster sebagai input dan membagi vektor-vektor ini ke dalam jumlah cluster yang ditentukan. Apakah prosedur ini cacat atau adakah cara agar hal ini dapat diperbaiki? Ada saran?