Pertanyaan:
Apakah ada pedoman umum sehubungan dengan karakteristik data input, yang dapat digunakan untuk memutuskan antara menerapkan PCA versus LSA / LSI?
Ringkasan singkat PCA vs LSA / LSI:
Principal Component Analysis (PCA) dan Latent Semantic Analysis (LSA) atau Latent Semantic Indexing (LSI) serupa dalam arti bahwa semuanya bergantung secara mendasar pada penerapan Singular Value Decomposition (SVD) ke sebuah matriks.
LSA dan LSI, sejauh yang saya tahu, adalah hal yang sama. LSA berbeda dari PCA tidak pada dasarnya, tetapi dalam hal cara entri matriks pra-diproses sebelum menerapkan SVD.
Dalam LSA langkah preprocessing biasanya melibatkan menormalkan matriks hitungan di mana kolom sesuai dengan 'dokumen' dan baris sesuai dengan beberapa jenis kata. Entri dapat dianggap sebagai semacam jumlah kata-kejadian-untuk-dokumen (dinormalisasi).
Dalam PCA langkah preprocessing melibatkan penghitungan matriks kovarians dari matriks asli. Matriks asli secara konseptual lebih 'umum' daripada dalam kasus LSA. Di mana PCA terkait, kolom biasanya dikatakan merujuk ke vektor sampel generik dan baris dikatakan merujuk ke variabel individual yang sedang diukur. Matriks kovarians menurut definisi kuadrat dan simetris dan sebenarnya tidak perlu menerapkan SVD, karena matriks kovarians dapat didekomposisi melalui diagonalisasi. Khususnya, matriks PCA hampir pasti akan lebih padat daripada varian LSA / LSI - nol entri hanya akan terjadi di mana kovarians antara variabel adalah nol, di situlah variabel independen.
Akhirnya satu lagi poin deskriptif yang dibuat cukup sering untuk membedakan keduanya adalah itu
LSA mencari subruang linear terbaik dalam norma Frobenius, sementara PCA bertujuan untuk subruang linear affine terbaik.
Bagaimanapun, perbedaan dan persamaan teknik ini telah diperdebatkan dengan panas di berbagai forum di seluruh internet, dan jelas ada beberapa perbedaan yang menonjol, dan jelas kedua teknik ini akan menghasilkan hasil yang berbeda.
Jadi saya ulangi pertanyaan saya: Apakah ada pedoman umum sehubungan dengan karakteristik data input, yang dapat digunakan untuk memutuskan antara menerapkan PCA versus LSA / LSI? Jika saya memiliki sesuatu yang menyerupai term-document matrix akankah LSA / LSI selalu menjadi pilihan terbaik? Mungkinkah berharap untuk mendapatkan hasil yang lebih baik dalam beberapa kasus dengan menyiapkan matriks istilah / doc untuk LSA / LSI dan kemudian menerapkan PCA ke hasilnya, daripada langsung menerapkan SVD?