Terkait, tetapi tidak ada jawaban yang memuaskan: Bagaimana saya bisa membagi file teks besar menjadi potongan-potongan 500 kata atau lebih?
Saya mencoba untuk mengambil file teks ( http://mattmahoney.net/dc/text8.zip ) dengan> 10 ^ 7 kata semua dalam satu baris, dan membaginya menjadi baris dengan masing-masing N kata. Pendekatan saya saat ini berfungsi, tetapi cukup lambat dan jelek (menggunakan skrip shell):
i=0
for word in $(sed -e 's/\s\+/\n/g' input.txt)
do
echo -n "${word} " > output.txt
let "i=i+1"
if [ "$i" -eq "1000" ]
then
echo > output.txt
let "i=0"
fi
done
Adakah tips tentang cara membuat ini lebih cepat atau lebih ringkas?