Makalah yang dikaitkan dengan Mapperz sangat baik dan memiliki banyak kutipan yang mungkin menarik, tetapi saya tidak berpikir mereka melakukan pekerjaan yang sangat baik untuk menggambarkan pencocokan string dan pentingnya untuk proses geocoding. Mereka menyebutkan secara singkat Soundex , tetapi Soundex bukan satu-satunya pilihan dan bahkan bukan pilihan terbaik untuk alamat IMO. Mereka memang membuat daftar beberapa kutipan yang berkaitan dengan topik, sehingga makalah-makalah itu akan menarik bagi Anda.
Thread ini di situs pertukaran Statistik berbicara tentang fuzzy yang cocok dengan dua set string, dan semua teknik yang sama berlaku saat mencocokkan alamat. Khususnya saya pikir menggunakan jarak edit lebih masuk akal daripada Soundex, terutama dengan detail alamat yang tidak memiliki analog Soundex. Menghitung jarak Levenshtein antara dua string tidak terlalu rumit, dan mereka banyak contoh melayang di internet (di sini adalah satu dengan Python).
Saya baru saja menghabiskan satu jam terakhir mencoba untuk menemukan bagaimana ESRI mengimplementasikan sensitivitas ejaan mereka dan skor kandidat dan pertandingan yang berbeda. Saya tidak menemukan apa pun kecuali deskripsi sederhana (yang terbaik dari yang saya temukan di bagian bantuan online PDF dan 9.3 ini ). Jadi kalau ada yang bisa mengarahkan saya ke beberapa dokumentasi yang lebih rinci saya akan menghargai serta OP.