Untuk dokumen teks, vektor fitur dapat memiliki dimensi yang sangat tinggi dan jarang di bawah representasi standar mana pun (sekumpulan kata atau TF-IDF, dll.). Mengukur jarak langsung di bawah representasi seperti itu mungkin tidak dapat diandalkan karena itu adalah fakta yang diketahui bahwa dalam dimensi yang sangat tinggi, jarak antara dua titik mulai terlihat sama. Salah satu cara untuk mengatasinya adalah dengan mengurangi dimensi data dengan menggunakan PCA atau LSA ( Latent Semantic Analysis ; juga dikenal sebagai Latent Semantic Indexing ) dan kemudian mengukur jarak di ruang baru. Menggunakan sesuatu seperti LSA melalui PCA menguntungkan karena dapat memberikan representasi yang bermakna dalam hal "konsep semantik", selain mengukur jarak dalam ruang dimensi yang lebih rendah.
Membandingkan dokumen berdasarkan distribusi probabilitas biasanya dilakukan dengan terlebih dahulu menghitung topik distribusi dari setiap dokumen (menggunakan sesuatu seperti Latent Dirichlet Allocation ), dan kemudian menghitung beberapa jenis divergensi (misalnya, KL divergensi) antara distribusi topik sepasang dokumen. Di satu sisi, itu sebenarnya agak mirip dengan melakukan LSA pertama dan kemudian mengukur jarak di ruang LSA menggunakan KL-divergensi antara vektor (bukan kesamaan cosinus).
Divergensi-KL adalah ukuran jarak untuk membandingkan distribusi sehingga mungkin lebih disukai jika representasi dokumen dalam hal beberapa distribusi (yang seringkali sebenarnya merupakan kasus - misalnya, dokumen direpresentasikan sebagai distribusi atas topik, seperti dalam LDA). Perhatikan juga bahwa di bawah representasi seperti itu, entri dalam vektor fitur akan berjumlah satu (karena Anda pada dasarnya memperlakukan dokumen sebagai distribusi topik atau konsep semantik).
Lihat juga utas terkait di sini .