Dataset untuk Pengakuan Entitas Bernama pada Teks Informal

18

Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih "informal" daripada entri artikel artikel dan jurnal yang saat ini banyak dikenal sebagai sistem pengenal entitas bernama dilatih.

Ada rekomendasi? Sejauh ini saya hanya dapat menemukan token 50k dari twitter yang diterbitkan di sini .

dataset nlp

— Madison May
sumber

2

Sarankan bertanya di opendata.stackexchange.com

— Air

@Madison May. Apakah Anda menemukan kumpulan data? Saya mencari yang serupa. Terima kasih.

— ahoffer

Saya harus puas dengan twitter ner corpus dari U. Washington (ditautkan dalam pos asli).

— Madison

FYI Corpus dari teks yang ditandai (surat kabar Inggris atau teks yang ditandai lainnya)

— Franck Dernoncourt

punya korpus Inggris beranotasi bagus yang terkait?

— Achyuta nanda sahoo

6

Seperti yang saya pahami, ini adalah properti yang Anda cari dalam dataset sampel:

Data teks
Itu harus informal, yaitu memiliki kesalahan ketik, gaul, dan pada dasarnya sesuatu yang tidak diedit secara profesional
Sesuatu selain dari Twitter (Saya tidak menyalahkan Anda, Twitter adalah contoh sumber data yang berguna namun sering digunakan dalam penambangan teks)

Berikut ini beberapa rekomendasi:

Email dari SpamAssassin corpus - perhatikan bahwa set data "ham" (non-spam) dan spam tersedia
set data microblogPCU dari UCI, yang merupakan data yang diambil dari microblog pengguna Sina Weibo - perhatikan, data teks mentah adalah campuran dari bahasa Cina dan Inggris (Anda bisa melakukan terjemahan mesin dari bahasa Mandarin, memfilter hanya dalam bahasa Inggris, atau menggunakannya dengan adanya)
Amazon Commerce mengulas dataset dari UCI
Di dalam dataset bag-o-words , coba gunakan email Enron
The Twenty Newsgroup dataset
Koleksi spam SMS yang bagus
Anda selalu dapat mengikis (mengekstrak) data teks Anda sendiri dari Internet; Saya tidak yakin bahasa atau paket statistik yang Anda gunakan, tetapi paket berbasis XPath tersedia dalam R ( rvest, scrapeR, dll) dan Python untuk mencapai hal ini

— Hack-R
sumber

1

Apakah ada dari dataset ini yang dianotasi dengan entitas bernama? Saya percaya itulah yang dicari OP.

— Tn. Phil

3

Periksa ini:

Repositori Domain Uji untuk Ekstraksi Informasi: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( mirror )

Tautan Diperbarui:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
sumber

1

Perbarui tautan ini karena tidak ada yang berfungsi lagi.

— Tn. Phil

0

Beberapa sumber yang saya gunakan:

CONLL Corpus: CONLL Dataset yang klasik
Satu Sumber Kaggle yang patut dicoba: Kaggle NER Corpus
OntoNotes Rilis 5.0: Ke atas Notes
Tugas Pengakuan Entitas Bio : Entitas Bio
Dataset Terkait Email Lainnya: Enron Email Dataset

Saya pikir set data ini akan sangat membantu untuk tugas Anda

— Gyan Ranjan
sumber