Pertanyaan saya umumnya pada Dekomposisi Nilai Singular (SVD), dan khususnya tentang Latent Semantic Indexing (LSI).
Katakanlah, saya memiliki yang berisi frekuensi 5 kata untuk 7 dokumen.
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
Saya mendapatkan faktorisasi matriks untuk dengan menggunakan SVD: .A = U ⋅ D ⋅ V T
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
Dalam 1 dan 2 , dinyatakan bahwa:
memberikan kata kesamaan matriks , di mana baris mewakili kata-kata yang berbeda.
WordSim = s$u %*% S
memberikan matriks kemiripan dokumen di mana kolom mewakili dokumen yang berbeda.
DocSim = S %*% t(s$v)
Pertanyaan:
- Secara aljabar, mengapa dan kata / dokumen matriks kesamaan? Apakah ada penjelasan yang intuitif?D o c S i m S
- Berdasarkan contoh R yang diberikan, dapatkah kita membuat penghitungan jumlah / kemiripan kata intuitif dengan hanya melihat dan (tanpa menggunakan kesamaan cosinus atau koefisien korelasi antara baris / kolom)?D o c S i m
D=svd(A)$d
dalam R mengembalikan akar kuadrat dari nilai-nilai eigen non-nol, maka saya menggunakan . Saya tidak punya masalah dengan aspek reduksi dimensi, dan saya mengerti perkiraan peringkat lebih rendah dari A dapat dibentuk seperti yang mereka jelaskan. Saya menemukan jawaban di tautan ini sebagian menjawab pertanyaan saya.