Memiliki banyak dokumen teks (dalam bahasa alami, tidak terstruktur), apa cara yang memungkinkan untuk membuat anotasi dengan beberapa meta-data semantik? Misalnya, pertimbangkan dokumen pendek:
I saw the company's manager last day.
Untuk dapat mengekstraksi informasi darinya, harus dianotasi dengan data tambahan agar tidak ambigu. Proses menemukan meta-data tersebut tidak dipertanyakan, jadi anggap itu dilakukan secara manual. Pertanyaannya adalah bagaimana cara menyimpan data ini sedemikian rupa sehingga analisis lebih lanjut tentang hal itu dapat dilakukan dengan lebih mudah / efisien?
Pendekatan yang mungkin adalah dengan menggunakan tag XML (lihat di bawah), tetapi tampaknya terlalu bertele-tele, dan mungkin ada pendekatan / pedoman yang lebih baik untuk menyimpan meta-data tersebut pada dokumen teks.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.