Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih "informal" daripada entri artikel artikel dan jurnal yang saat ini banyak dikenal sebagai sistem pengenal entitas bernama dilatih.
Ada rekomendasi? Sejauh ini saya hanya dapat menemukan token 50k dari twitter yang diterbitkan di sini .