Saya menggunakan pdftotext
untuk membuat versi ASCII dari dokumen PDF (dibuat dengan LaTeX), karena kolaborator lebih suka dokumen sederhana dalam MS Word.
Versi teks biasa yang saya lihat terlihat bagus, tetapi setelah diperiksa lebih dekat karakter f tampaknya sering salah dikonversi tergantung pada karakter apa yang mengikuti. Sebagai contoh, fi dan fl sering tampak menjadi satu karakter khusus, yang akan saya coba tempel di sini: fi dan fl.
Apa cara terbaik untuk membersihkan output pdftotext? Saya berpikir sed
mungkin alat yang tepat, tetapi saya tidak yakin bagaimana mendeteksi karakter khusus ini.
pdftotext
dari poppler, kan pdftotex
?
ebook-convert
dari kaliber ( calibre-ebook.com ) daripada pdftotext
. Ini memungkinkan output teks biasa (dan berbagai format lainnya), dan menangani ligatur untuk Anda.
siunitx
dan glossaries
, dan karena itu sepertinya mengirim melalui PDF adalah solusi terbaik. Saya berharap ada cara yang lebih baik.