Mengidentifikasi acara yang terkait dengan tanggal dalam paragraf


13

Apakah ada pendekatan algoritmik untuk mengidentifikasi bahwa tanggal yang diberikan dalam paragraf berkorelasi dengan peristiwa (frasa) tertentu dalam paragraf?

Contoh, pertimbangkan paragraf berikut:

Pada Juni 1970, pemimpin besar itu mengambil sumpah. Tetapi baru setelah Mei 1972, setelah kematian Menteri Negara, dia mengambil alih tampuk kekuasaan negara. Sementara ia menikmati dukungan rakyat hingga Pertengahan 1980, pengaruhnya mulai menurun sesudahnya.

Apakah ada algoritma (deterministik atau stokastik) # yang dapat menghasilkan 2-tupel (tanggal, peristiwa), di mana peristiwa tersebut tersirat, oleh paragraf, telah terjadi pada tanggal ? Dalam kasus di atas:

  • (Juni 1970, pemimpin besar bersumpah)
  • (Mei 1972, mengambil alih kendali)

    atau lebih baik lagi

  • (Mei 1972, pemimpin besar mengambil alih kendali)
  • (1980, jatuh pengaruh)

# Selain itu


2
Masalah ini tampaknya mengandung tiga fase: 1) ekstrak tanggal, 2) ekstrak peristiwa dan 3) menghubungkan kedua set data. 1) tentu bisa dilakukan dan saya bisa membayangkan heuristik yang layak untuk 3), tetapi bagaimana Anda berharap untuk menyelesaikan 2)?
Raphael

1
@ Raphael Mengulangi pertanyaan saya dengan bagus!
check123

Nah, apakah Anda memiliki beberapa info tentang 2), misalnya serangkaian acara menarik yang terbatas (yaitu kata-kata)? Apakah Anda ingin mengekstrak semua pasangan kata benda / kata kerja selama mereka memiliki tanggal?
Raphael

Apakah Anda ingin mengekstrak kerangka waktu juga? Dalam contoh Anda, pertimbangkan (<= May 1972, death of the Minister of State)atau (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael

@ Raphael Maaf atas keterlambatan (sangat). Mengenai 2) Tidak. Saya mencoba pendekatan umum.
check123

Jawaban:


4

Secara umum, masalah mengidentifikasi tanggal dan penanda temporal lainnya dalam teks disebut masalah penggalian referensi temporal . Pencarian yang tertaut akan membawa Anda ke makalah yang terkait dengan ini.


Tidak tahu bahwa masalahnya ada nama. Akan mencari lebih banyak tentang itu dan melihat apakah saya dapat menemukan sesuatu yang berharga. :)
check123

2

Karena Anda meminta pendekatan algoritmik, saya akan sama keras kepala dengan algoritma. Saya minta maaf untuk memperlakukan pertanyaan ini seperti ini, tetapi karena itu tidak tampak seperti masalah teoritis yang kompleks, saya akan mensintesis pendekatan yang mungkin.

Pertanyaan: dapatkah Anda memberi saya definisi algoritmik tentang tanggal dan peristiwa tertentu?

Jika kamu bisa: Karena definisi Anda adalah algoritmik, maka ini mungkin semacam tata bahasa formal , dan masalah Anda adalah untuk menyelaraskan tata bahasa itu untuk menangkap setiap kasus yang perlu Anda pertimbangkan. (Saya tertarik jika Anda dapat memberi saya definisi pasti yang bukan tata bahasa formal)

Jika Anda tidak bisa: maka setidaknya Anda bisa memberikan contoh. Baik-baik saja maka. Pendekatan terbaik - dan satu-satunya yang dapat saya pikirkan - adalah algoritma pembelajaran mesin, yang harus Anda latih untuk mengenali tanggal dan acara Anda. (Menggunakan korpus kalimat yang dianotasi dengan tangan) Namun ini cukup berlebihan dibandingkan dengan beberapa regexp buatan tangan besar yang mungkin akan melakukan pekerjaan itu. Jika Anda benar-benar ingin melakukannya, saya pikir yang paling efisien adalah jenis regexp yang diberikan sebagai parameter untuk algoritma pembelajaran tetapi Anda lebih baik bertanya pada pakar pembelajaran mesin.

Semoga beruntung dengan ini, Jauh lebih mudah untuk membicarakannya (dalam kedua kasus).


1
Yang mengatakan, saya pikir menggabungkan tanggal dan acara pasti akan memerlukan beberapa model stokastik.
Raphael

Tanggal dalam sebagian besar format yang dapat saya ambil menggunakan regexp. Dengan beberapa logika pemrograman, saya dapat mengekstrak kalimat di sekitar tanggal. Masalahnya kemudian adalah bahwa saya memerlukan model atau distribusi probabilitas bahwa ketika pola kalimat tertentu, Mis .: Kucing memakan tikus pada 25 Agustus. [<article> <noun> <verb> <article> <noun> <preposisi> <tanggal>], muncul kemudian satu set (sub) pola, Kucing memakan tikus (dalam kasus kami), berkorelasi dengan tanggal y (25 Agustus) dengan probabilitas z.
check123

@jmad Jika Anda tidak keberatan, bisakah Anda menyesuaikan pemformatan pos Anda? Menggunakan gaya kutipan untuk non-kutipan (atau kutipan sendiri?) Agak membingungkan.
uli
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.