Di mana menemukan corpus teks besar? [Tutup]


16

Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?


Utas ini tampaknya bukan topik. Lihat meta.stats.stackexchange.com/questions/1032/… .
whuber

Pertanyaan ini tampaknya di luar topik karena ini adalah tentang menemukan kumpulan data, daripada melakukan analisis statistik
Peter Flom - Reinstate Monica

2
Yah itu aneh, karena T&J ini sangat berguna.
Tontonan Bob

@guaka, tolong jangan menabrak posting lama seperti itu untuk suntingan kecil, terutama posting yang ditutup. Memang benar bahwa preferensi gaya kami bukan untuk memiliki "terima kasih", tetapi untuk sesuatu yang sepele ini, kami hanya akan meninggalkannya.
gung - Reinstate Monica

Jawaban:




6

Corpus teks reuters adalah klasik di lapangan, dan dapat ditemukan di sini


Ini bukan corpus yang paling menarik (atau beragam). Lisensi ini juga terbatas relatif terhadap Wikileaks (domain publik dokumen AS) atau wikinews.
ariddell

@ariddell saya setuju, tetapi umumnya digunakan dalam contoh pengantar NLP, dan cukup besar untuk berguna dalam pembelajaran tetapi cukup kecil untuk dianalisis pada laptop yang bagus.
richiemorrisroe



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.