Saya memiliki dua file besar yang berisi paragraf teks bahasa Inggris:
- Teks pertama panjangnya sekitar 200 halaman dan memiliki sekitar 10 paragraf per halaman (setiap paragraf panjangnya 5 kalimat).
- Teks kedua berisi paragraf dan teks yang hampir sama persis dengan paragraf pertama. Panjangnya juga 200 halaman dengan 10 paragraf per halaman. Namun, paragraf diacak dan dalam urutan yang berbeda bila dibandingkan dengan teks pertama. Juga, sebagian besar paragraf memiliki perubahan kecil dalam susunan kata dibandingkan dengan paragraf serupa. Misalnya, paragraf dalam teks pertama mungkin memiliki kalimat seperti
Like Jimmy, I wanted to go to the palace
sementara kalimat yang sesuai dalam paragraf teks kedua akan dibacaLike Jimmy, I really wanted to go to the castle
.
Saya ingin dapat menangkap perubahan di sini seperti penambahan really
dan penghapusan palace
dengan penggantian castle
. Jika paragraf rata-rata disejajarkan, maka ini akan sangat sepele karena ada banyak cara untuk membedakan teks. Namun, karena paragraf tidak selaras, itu tidak terjadi.
Jika file-file itu kecil (beberapa paragraf), Levenshtein Distance mungkin akan berfungsi dengan baik, tetapi karena file-file itu besar, itu tidak efisien untuk membandingkan setiap paragraf teks 1 dengan setiap paragraf teks 2 untuk mengetahui paragraf mana yang cocok.
Apa yang akan menjadi pendekatan lain untuk mengatasi masalah ini secara efisien?