Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?
Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya menemukan satu dengan paten. Ada saran?
Jawaban:
Tidakkah teks-teks Wikileaks cocok untuk Anda?
Bagaimana dengan wikinews ? Berikut ini adalah database dump terbaru yang bisa saya temukan: http://dumps.wikimedia.org/enwikinews/20111120/
Anda mungkin menginginkan "Semua halaman, hanya versi saat ini." - versi.
Corpus teks reuters adalah klasik di lapangan, dan dapat ditemukan di sini
http://endb-consolidated.aihit.com/datasets.htm berisi 10K perusahaan dengan deskripsi tekstual
Jika kebaruan bukan masalah, Anda dapat mencoba
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
dan ada banyak lagi dataset serupa lainnya di infochimp tergantung pada anggaran Anda.
Salam, Andy.
Jika Anda ingin n-gram yang dihitung sebelumnya, Anda dapat mencoba arsip buku google: