Saya harus melakukan ini untuk file PDF sekali, dan ini hasilnya (menggunakan pdftohtml dari poppler):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
Umpan zip ke Calibre dan dikonversi ke EPUB. Saring semua properti CSS (seperti warna, font).
Setiap file PDF berbeda - tidak ada solusi pasti. Di atas bekerja untuk satu kasus khusus - Anda harus lemah pdftohtml / pdftotext dan kemudian men-tweak output agar sesuai dengan kebutuhan Anda.
Jika ini gagal dan Anda harus menggunakan OCR, saya sudah beruntung dengan runcing. Tapi coba juga tesseract, ocrad, gocr. Namun semua itu membutuhkan kerja manual untuk hasil yang baik.