Saya menyelidiki berbagai teknik yang digunakan dalam pengelompokan dokumen dan saya ingin menghapus beberapa keraguan tentang PCA (analisis komponen utama) dan LSA (analisis semantik laten).
Hal pertama - apa perbedaan di antara mereka? Saya tahu bahwa di PCA, dekomposisi SVD diterapkan ke matriks term-kovarians, sedangkan di LSA itu adalah matriks dokumen-jangka. Apakah ada hal lain?
Kedua - apa peran mereka dalam prosedur pengelompokan dokumen? Dari apa yang telah saya baca sejauh ini, saya menyimpulkan bahwa tujuan mereka adalah pengurangan dimensi, pengurangan kebisingan dan menggabungkan hubungan antara istilah-istilah ke dalam representasi. Setelah mengeksekusi PCA atau LSA, algoritma tradisional seperti k-means atau metode aglomerasi diterapkan pada ruang istilah yang dikurangi dan ukuran kesamaan yang umum, seperti jarak cosinus digunakan. Harap perbaiki saya jika saya salah.
Ketiga - apakah penting jika vektor istilah TF / IDF dinormalisasi sebelum menerapkan PCA / LSA atau tidak? Dan haruskah mereka dinormalisasi lagi setelah itu?
Keempat - katakanlah saya telah melakukan beberapa pengelompokan pada ruang istilah dikurangi oleh LSA / PCA. Sekarang, bagaimana saya harus menetapkan label ke kluster hasil? Karena dimensi tidak sesuai dengan kata-kata yang sebenarnya, itu agak masalah yang sulit. Satu-satunya ide yang muncul di benak saya adalah menghitung centroid untuk setiap cluster menggunakan vektor istilah asli dan memilih istilah dengan bobot tertinggi, tetapi itu tidak terdengar sangat efisien. Apakah ada solusi spesifik untuk masalah ini? Saya tidak dapat menemukan apa pun.
Saya akan sangat berterima kasih untuk mengklarifikasi masalah ini.