Saya memiliki banyak dokumen, yang memuat banyak pasangan nilai kunci di dalamnya. Kunci mungkin tidak unik sehingga mungkin ada beberapa kunci dari jenis yang sama dengan nilai yang berbeda.
Saya ingin membandingkan kesamaan kunci antara 2 dokumen. Lebih khusus kesamaan string dari nilai-nilai ini. Saya berpikir untuk menggunakan sesuatu seperti Algoritma Smith-Waterman untuk membandingkan kesamaan.
Jadi saya telah menggambar bagaimana saya berpikir tentang merepresentasikan data -
Nilai-nilai dalam sel adalah hasil dari algoritma smith-waterman (atau beberapa metrik kesamaan string).
Gambar yang matriks ini mewakili jenis kunci "hal-hal" Saya kemudian perlu menambahkan skor kesamaan "hal" ke dalam vektor 0 atau 1. Thats ok.
Apa yang saya tidak tahu adalah bagaimana saya menentukan apakah matriksnya sama atau tidak mirip - idealnya saya ingin mengkonversi matriks ke angka antara 0 dan 1 dan kemudian saya akan menetapkan ambang batas untuk mencetaknya sebagai 0 atau 1.
Adakah ide bagaimana saya bisa membuat skor matriks? Adakah yang tahu algoritma yang melakukan hal semacam ini (jelas hal-hal seperti bagaimana smith waterman bekerja adalah sesuatu yang berlaku).