Bagaimana saya bisa mendapatkan jumlah kata dari file PDF? Saya pikir sebagian besar file pdf yang saya ingin dapatkan jumlah kata totalnya memiliki lapisan teks, jadi saya tidak perlu OCR.
Tugas itu muncul dari mencari beberapa makalah ilmiah dengan ukuran yang diketahui, misalnya 15.000 kata. Sebagian besar makalah moders diterbitkan dalam format pdf
pdftotext
: jangan lupa e. Dan Anda dapat menggunakan satu perintah:pdftotext myfile.pdf - | wc -w
.