Anda dapat menggunakan kesedihan data Wikipedia . The Dump XML data untuk bahasa Indonesia yang meliputi revisi saat ini hanya sekitar 31 GB, jadi saya akan mengatakan itu akan menjadi awal yang baik untuk penelitian Anda. Tumpukan data cukup besar, jadi Anda harus mempertimbangkan mengekstraksi teks dari XML dengan parser SAX. WikiXMLJ adalah Java API berguna yang disesuaikan untuk Wikipedia.
Dan kemudian, tentu saja, selalu ada kesedihan data Stack Exchange . Yang terbaru mencakup semua situs Stack Exchange publik non-beta & situs Meta terkait hingga September 2011. Namun, secara alami pos Stack Exchange terkonsentrasi pada ruang lingkup setiap situs, jadi mungkin tidak seeneralisasi seperti yang Anda inginkan. Meta post agak lebih umum, jadi Anda bisa mempertimbangkannya selain Wikipedia.
Saya tidak berpikir Anda akan menemukan sesuatu yang lebih baik, terutama dalam teks biasa. Beberapa set data terbuka tersedia melalui Hub Data , tetapi saya pikir dump data Wikipedia bahasa Inggris sangat dekat dengan apa yang Anda cari.