Saya ingin tahu cara mencocokkan alamat pos ketika formatnya berbeda atau ketika salah satu dari mereka salah eja.
Sejauh ini saya telah menemukan solusi yang berbeda tetapi saya pikir mereka sudah cukup tua dan tidak terlalu efisien. Saya yakin ada beberapa metode yang lebih baik, jadi jika Anda memiliki referensi untuk saya baca, saya yakin itu adalah subjek yang mungkin menarik minat beberapa orang.
Solusi yang saya temukan (contohnya dalam R):
Levenshtein distance, yang sama dengan jumlah karakter yang harus Anda sisipkan, hapus atau ubah untuk mengubah satu kata menjadi yang lain.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Perbandingan fonem
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
Penggunaan koreksi ejaan (akhirnya yang bayesian seperti Peter Norvig) , tapi tidak terlalu efisien pada alamat kurasa.
Saya berpikir untuk menggunakan saran dari Google menyarankan, tetapi juga, itu tidak sangat efisien pada alamat pos pribadi.
Anda dapat membayangkan menggunakan pendekatan yang diawasi pembelajaran mesin tetapi Anda harus menyimpan permintaan yang salah eja dari pengguna untuk melakukannya yang bukan merupakan pilihan bagi saya.