Sebagai penggemar open source (dan otomatisasi) saya benci mengatakan ini, tetapi hasil terbaik yang saya dapatkan (pada PDF yang cukup besar dan kompleks) adalah membukanya di Adobe Reader, lalu pilih File | Save As Text.
(Saya pra-pemrosesan untuk percobaan analisis teks, bukan sebagai pembaca, tapi saya pikir pilihan pertama dan kedua saya akan sama.)
Saya telah membandingkan keluaran berdampingan. Pilihan kedua saya adalah ebook-convert.
Adobe : tersisa di FF untuk pemecah halaman, kiri dalam nomor halaman, belum mengubah judul / paragraf menjadi satu baris, tetapi telah memperbaiki tanda hubung. Sampah yang disembunyikan dalam PDF tidak mendapatkan hasil. Benar mendapatkan modal besar di awal bagian, misalnya "The", bukan "T he" atau bahkan "T he".
ebook-convert : Kiri dalam nomor halaman, dan beberapa sampah tersembunyi di header / footer (tetapi tidak ada FF). Mengonversi sebagian besar paragraf menjadi satu baris. Yang terlewat adalah spasi ganda! Peluru tidak selalu sejalan dengan teks. Benar mendapat "The" di awal bab ini.
pdftotext (tanpa --layout) : Tidak buruk, peluru berbaris, tetapi suara header / footer. FF ada di sana. Tanda hubung dihapus. Terburuk untuk awal bab huruf besar: "T \ n \ nhe".
pdftotext (dengan --layout) : Serupa, tetapi lebih banyak indentasi. "T he" untuk memulai bab.
pdftohtml >> pdfreflow >> htmltotext : Ini menghapus nomor halaman, tetapi masih sampah di header / footer. "T he" untuk memulai bab. Tanda hubung dihapus. (Ini menggunakan beberapa baris per paragraf, namun itu bukan baris yang sama seperti pada versi lain!)