Ada beberapa pendekatan yang akan bekerja lebih baik untuk beberapa bahasa daripada yang lain. Misalnya, soundex (dan deskripsi lain yang saya suka ) dirancang untuk pengucapan nama dalam bahasa Inggris. Dengan soundex, Michael
menjadi M240. Ini memiliki beberapa langkah:
- Huruf pertama diisolasi. (
M
dan ichael
)
- Semua vokal dihapus dari sisa (
M
dan chl
)
- Konsonan diganti
- Nol pad kiri.
Pengelompokan konversi konsonan didasarkan pada mereka fonetik kesamaan - B
, F
, P
dan V
semua peta untuk 1
.
Dan ada variasi dalam hal ini dari waktu ke waktu . Ini sangat berguna dalam silsilah di mana ejaan nama dapat berubah dari waktu ke waktu, tetapi pengucapannya tetap sama.
Ada juga pendekatan seperti rating kecocokan yang dikembangkan oleh maskapai untuk nama (bukan silsilah Amerika).
Pengkodean pendekatan peringkat kecocokan (MRA) adalah:
- Hapus semua vokal yang tidak terkemuka (
Michael
menjadi Mchl
dan Anthony
menjadi Anthny
)
- Hapus konstanta kedua dari sembarang ganda
- Jika string lebih panjang dari 6 karakter, kurangi string yang tersisa menjadi 6 karakter dengan mengambil tiga pertama dan tiga terakhir.
Spesifikasi lengkap untuk ini dapat ditemukan di archive.org - perhatikan bahwa ini "tidak kecil" (formulir yang dicetak 214 halaman).
The perbandingan memiliki ambang yang cocok berdasarkan berapa lama teks.
Ada juga algoritma fonetik lainnya .
Jadi, yang saya sarankan Anda lakukan adalah mengambil soundex apa adanya, mengambil pendekatan peringkat kecocokan apa adanya, atau memodifikasi soundex berdasarkan konsonan Rumania dan konsonan Polandia .
Ingat bahwa dengan soundex, konsonan yang dikelompokkan (dalam bahasa Polandia, m
, n
, ɲ
semua konsonan nasal untuk dikelompokkan, dan Anda akan kemungkinan kelompok labial, gigi, dan alveolar plosif - akan mereka bersuara atau menyuarakan bersama-sama - yang diberikan, saya tidak tahu bahasa Polandia jadi tidak tahu jika saya hanya mengatakan hal-hal yang tidak benar di sana).
Kemudian, cukup sembunyikan semua nama dalam basis data ke dua sistem soundex yang berbeda dan cari tahu nama-nama apa yang memiliki rangkaian tumbukan terendah dalam berbagai bahasa. Ini memberi Anda nama yang berbeda. Jadi itu Smith
tidak muncul sebagai Smyth
.
Namun, ini hanya memecahkan "nama yang kemungkinan akan bertabrakan dengan nama lain dan salah dengar." Itu tidak membahas cara lain dari "nama yang didengar dengan benar, ditulis secara tidak benar" dan untuk itu, orang harus memusatkan perhatian mereka pada nama-nama umum.
Sebagai contoh, Michael
adalah nama yang sangat umum di AS dari awal 1950 hingga akhir 1970. Itu benar - benar populer . Namun, untuk beberapa alasan, nama Micheal
itu agak populer di tahun 1950-an (naik ke nama ke-83 yang paling umum pada puncaknya). Dan saya yakin orang-orang yang bernama Micheal
terus-menerus membuat nama mereka salah eja.
Dengan demikian, Anda harus fokus pada nama di mana ada satu nama yang mendominasi popularitas nama untuk pengucapan yang diberikan. Melirik konsumen data yang lain untuk nama-nama tahun, Anda dapat melihat bahwa nama yang diawali dengan Jam ... untuk anak laki-laki yang berantakan dengan Jamaal
, Jamal
, Jamar
dan lain-lain. Kebetulan, nama-nama ini memiliki soundex yang sedikit berbeda untuk Amerika ( J540
, J540
dan J560
- l
dan r
dalam kelompok yang berbeda meskipun mereka terkait erat dalam fonetik). Namun, untuk seseorang dari, katakanlah Jepang, hanya ada satu suara di wilayah fonetik di mana l
danr
diucapkan dalam bahasa Inggris Amerika. Ini juga dapat menimbulkan tantangan dengan konsonan terkemuka menggunakan soundex yang orang harus sadar (saya pernah bekerja dengan seorang wanita Jepang yang menyebut dirinya Risa (dengan 'R') daripada Lisa sebagai Romanisasi nama Jepangnya).
Anda akan perhatikan bahwa contoh saya adalah untuk Amerika Serikat. Data itu mudah diakses. Rupanya ada beberapa hal untuk Polandia dan Hongaria , dan hanya mengisyaratkan kesamaan nama Hongaria ... Saya menduga bahwa mencari dalam bahasa selain bahasa Inggris mungkin membantu di sana.
Jadi, mengingat soundex untuk sebuah nama, beberapa tabrakan dan ejaan yang sebenarnya ada di set tabrakan. Lebih disukai, ini adalah nama umum. Melihat daftar hungaria itu, pergi dengan Krisztián
kemungkinan akan mendapatkan salah eja sementara, Zoltán
kurang mungkin begitu (# 22 nama bayi paling umum di 2011 di Hongaria!). Yang mengatakan, Anda tidak bisa salah dengan Michael
.