Saya memiliki banyak string alamat:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Saya ingin mengurai mereka menjadi komponen-komponen mereka:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Tetapi tentu saja datanya kotor: itu berasal dari banyak negara dalam banyak bahasa, ditulis dengan cara yang berbeda, mengandung kesalahan ejaan, ada bagian yang hilang, memiliki sampah tambahan, dll.
Saat ini pendekatan kami adalah menggunakan aturan yang dikombinasikan dengan fuzzy gazetteer matching, tetapi kami ingin menjelajahi teknik pembelajaran mesin. Kami telah memberi label data pelatihan untuk pembelajaran yang diawasi. Pertanyaannya adalah, seperti apa masalah pembelajaran mesin ini? Tampaknya tidak benar-benar pengelompokan, atau klasifikasi, atau regresi ....
Yang paling dekat yang bisa saya pikirkan adalah mengklasifikasikan setiap token, tetapi kemudian Anda benar-benar ingin mengklasifikasikan semuanya secara bersamaan, memuaskan kendala seperti "paling banyak harus ada satu negara;" dan benar-benar ada banyak cara untuk tokenize string, dan Anda ingin mencoba masing-masing dan memilih yang terbaik .... Saya tahu ada sesuatu yang disebut penguraian statistik, tetapi tidak tahu apa-apa tentang itu.
Jadi: teknik pembelajaran mesin apa yang bisa saya eksplorasi untuk mengurai alamat?