LSA vs PCA (pengelompokan dokumen)

Saya menyelidiki berbagai teknik yang digunakan dalam pengelompokan dokumen dan saya ingin menghapus beberapa keraguan tentang PCA (analisis komponen utama) dan LSA (analisis semantik laten).

Hal pertama - apa perbedaan di antara mereka? Saya tahu bahwa di PCA, dekomposisi SVD diterapkan ke matriks term-kovarians, sedangkan di LSA itu adalah matriks dokumen-jangka. Apakah ada hal lain?

Kedua - apa peran mereka dalam prosedur pengelompokan dokumen? Dari apa yang telah saya baca sejauh ini, saya menyimpulkan bahwa tujuan mereka adalah pengurangan dimensi, pengurangan kebisingan dan menggabungkan hubungan antara istilah-istilah ke dalam representasi. Setelah mengeksekusi PCA atau LSA, algoritma tradisional seperti k-means atau metode aglomerasi diterapkan pada ruang istilah yang dikurangi dan ukuran kesamaan yang umum, seperti jarak cosinus digunakan. Harap perbaiki saya jika saya salah.

Ketiga - apakah penting jika vektor istilah TF / IDF dinormalisasi sebelum menerapkan PCA / LSA atau tidak? Dan haruskah mereka dinormalisasi lagi setelah itu?

Keempat - katakanlah saya telah melakukan beberapa pengelompokan pada ruang istilah dikurangi oleh LSA / PCA. Sekarang, bagaimana saya harus menetapkan label ke kluster hasil? Karena dimensi tidak sesuai dengan kata-kata yang sebenarnya, itu agak masalah yang sulit. Satu-satunya ide yang muncul di benak saya adalah menghitung centroid untuk setiap cluster menggunakan vektor istilah asli dan memilih istilah dengan bobot tertinggi, tetapi itu tidak terdengar sangat efisien. Apakah ada solusi spesifik untuk masalah ini? Saya tidak dapat menemukan apa pun.

Saya akan sangat berterima kasih untuk mengklarifikasi masalah ini.

— pengguna1315305
sumber

LSA atau LSI: sama atau berbeda? Jika Anda maksud LSI = pengindeksan semantik laten mohon perbaiki dan distandarkan.

— Nick Cox

Apakah LSI dan LSA adalah dua hal yang berbeda? Saya pikir mereka setara.

— user1315305

Saya tidak punya ide; intinya adalah (tolong) menggunakan satu istilah untuk satu hal dan bukan dua; jika tidak, pertanyaan Anda bahkan lebih sulit untuk dipahami.

— Nick Cox

Ok, saya sudah memperbaikinya. Terima kasih telah menunjukkannya :)

— user1315305

Wikipedia memberi kesan bahwa LSA = LSI. Tapi LSI adalah analisis korespondensi (CA). CA adalah istilah analisis statistik, seperti PCA, sedangkan LSI / LSA adalah istilah penambangan teks. Jadi, cari artikel yang membandingkan PCA dan CA.

— ttnphns

Jawaban:

PCA dan LSA keduanya analisis yang menggunakan SVD. PCA adalah kelas analisis umum dan pada prinsipnya dapat diterapkan pada teks korporasi yang disebutkan dalam berbagai cara. Sebaliknya LSA adalah cara yang sangat jelas untuk menganalisis dan mengurangi teks. Keduanya memanfaatkan gagasan bahwa makna dapat diambil dari konteks. Dalam LSA konteksnya disediakan dalam angka-angka melalui matriks istilah-dokumen. Dalam PCA, konteks yang Anda usulkan disediakan dalam angka-angka melalui penyediaan matriks kovarian jangka (rincian generasi yang mungkin dapat memberi tahu Anda lebih banyak tentang hubungan antara PCA dan LSA Anda). Anda mungkin ingin melihat di sini untuk lebih jelasnya.
Anda pada dasarnya berada di jalur di sini. Alasan pasti mereka digunakan akan tergantung pada konteks dan tujuan orang yang bermain dengan data tersebut.
Jawabannya mungkin tergantung pada implementasi prosedur yang Anda gunakan.
Dengan hati-hati dan dengan seni yang luar biasa. Sebagian besar menganggap dimensi model semantik ini tidak dapat diinterpretasikan. Perhatikan bahwa Anda hampir pasti mengharapkan ada lebih dari satu dimensi yang mendasarinya. Ketika ada lebih dari satu dimensi dalam analisis faktor, kami memutar solusi faktor untuk menghasilkan faktor yang dapat ditafsirkan. Namun, untuk beberapa alasan ini biasanya tidak dilakukan untuk model ini. Pendekatan Anda terdengar seperti cara berprinsip untuk memulai karya seni Anda ... meskipun saya kurang yakin bahwa penskalaan antar dimensi cukup mirip untuk mempercayai solusi analisis kluster. Jika Anda ingin bermain-main dengan makna, Anda mungkin juga mempertimbangkan pendekatan yang lebih sederhana di mana vektor memiliki hubungan langsung dengan kata-kata tertentu, misalnya HAL .

— russellpierce
sumber

LSI dihitung pada matriks istilah-dokumen, sedangkan PCA dihitung pada matriks kovarians, yang berarti LSI mencoba menemukan subruang linier terbaik untuk menggambarkan kumpulan data, sedangkan PCA mencoba menemukan subruang linear paralel terbaik.

— Gaurav Singh
sumber

Nick, dapatkah Anda memberikan perincian lebih lanjut tentang perbedaan antara subruang linear terbaik dan subruang linear paralel terbaik? Apakah ini terkait dengan ortogonalitas? Haruskah saya menanyakan ini sebagai pertanyaan baru?

— russellpierce

Terbaik dalam arti apa? Meminimalkan norma Frobinius dari kesalahan rekonstruksi? Kalau begitu, pasti terdengar seperti PCA bagi saya.

— Andrew M

Hanya beberapa ekstensi untuk jawaban russellpierce.

1) Pada dasarnya LSA adalah PCA yang diterapkan pada data teks. Ketika menggunakan SVD untuk PCA, itu tidak diterapkan ke matriks kovarians tetapi matriks fitur-sampel secara langsung, yang hanya merupakan matriks istilah-dokumen dalam LSA. Perbedaannya adalah PCA sering memerlukan normalisasi fitur-bijaksana untuk data sedangkan LSA tidak.

Ada kuliah yang bagus dari Andrew Ng yang menggambarkan koneksi antara PCA dan LSA.

2/3) Karena data dokumen memiliki panjang yang bervariasi, biasanya akan sangat membantu untuk menormalkan besaran. Di sini normalisasi sampel-bijaksana harus digunakan bukan normalisasi fitur-bijaksana. Dalam praktiknya saya merasa terbantu untuk menormalkan sebelum dan sesudah LSI.

Jika metrik algoritma pengelompokan tidak bergantung pada besarnya (katakan jarak cosinus) maka langkah normalisasi terakhir dapat dihilangkan.

4) Menurutnya ini secara umum merupakan masalah yang sulit untuk mendapatkan label yang bermakna dari cluster. Beberapa orang mengekstrak istilah / frasa yang memaksimalkan perbedaan distribusi antara corpus dan cluster. Cara lain adalah dengan menggunakan pengelompokan semi-diawasi dengan label yang telah ditentukan.

— dontloo
sumber