Saya tertarik untuk menghubungkan catatan di 2 dataset dengan nama depan, nama belakang, dan tahun kelahiran. Mungkin ini bisa dilakukan dengan algoritma EM, dan jika demikian, bagaimana?
Pertimbangkan catatan berikut dalam 1 sebagai contoh: Carl McCarthy, 1967. Saya akan mencari semua catatan dalam dataset ke-2, dan menetapkan jarak jaro-winkler antara nama pertama dan Carl dan jarak jaro-winkler antara nama belakang dan McCarthy. Jarak ini adalah probabilitas seperti jarak antara tahun kelahiran. Kami menggabungkan 3 probabilitas tersebut (kalikan? Rata-rata?) Menjadi 1.
Sekarang sampai pada bagian aturan keputusan. Mari kita rangking semua probabilitas dari tertinggi ke terendah. Pertama, kami ingin P (klik pertama adalah kecocokan)> = ambang batas. Kedua, kami juga menginginkan P (hit pertama cocok) / P (hit kedua cocok)> = ambang jika P (hit kedua cocok) ada. Ketiga, kami ingin hit pertama dalam dataset kedua ini cocok dengan tidak lebih dari 1 orang di dataset pertama dengan Carl McCarthy, 1967.
Bagaimana ambang ini ditentukan?
Saya lebih suka pendekatan dalam Stata dan / atau Perl.
Lihat, misalnya:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Meskipun dengan itu, saya masih belum sepenuhnya mengikuti mengapa atau bagaimana, dan apa input dan outputnya, serta asumsi dan seberapa ketatnya mereka).