Berikut ini satu cara, yang akan membutuhkan beberapa alat yang tidak terlalu umum:
- ocrodjvu
- pdfbeads , yang memiliki persyaratan sendiri yang dapat ditemukan oleh Google
Kita dapat menggunakan djvu2hocr
perintah (dari ocrodjvu
paket) untuk mengekstrak lapisan teks tersembunyi dari file DjVu (tidak melakukan OCR atau serupa, hanya mengekstrak lapisan teks dengan geometri), yaitu:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervensi mengoreksi nama kelas dalam output hOCR (yang hanya file HTML sederhana)
Sekarang kami mengekstrak halaman DjVu ke format TIFF dengan:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
sehingga kita akhiri dengan file ini di folder tidak bekerja:
sample.djvu
pg10.html
pg10.tif
Di sinilah pdfbeads
berperan, dan kami mengeksekusi sederhana:
pdfbeads -o pg10.pdf
kemudian program yang bagus ini menangani semua yang ada di dalam folder ini (file HTML dan TIFF dengan nama dasar yang sama) dan menghasilkan output file PDF dengan beberapa produk sampingan:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
yang identik dengan input file DjVu dan memiliki lapisan teks di dalamnya:
Ringkasan komentar:
Komentar panjang di bawah ini membahas mewakili gambar yang lebih kecil dari halaman dokumen DjVu sebagai objek yang terpisah, yang tidak mudah dilakukan karena halaman dokumen DjVu sendiri hanyalah gambar tunggal dengan lapisan teks opsional, tanpa "informasi" tentang gambar yang lebih kecil sebagai objek terpisah. Jika dokumen DjVu memiliki gambar berwarna, maka biasanya akan ditempatkan pada lapisan latar belakang; dalam hal ini pengguna dapat mengambil keuntungan dari alat-alat seperti ddjvu
(ekstrak hanya lapisan latar belakang) dan imagemagick
(potong otomatis) untuk hanya menghasilkan gambar, bukan seluruh kanvas, tetapi tidak dapat otomatis untuk membuat output PDF
Pendekatan lain yang lebih waras, tetapi lebih lambat adalah penggunaan alat GUI OCR biasa. gscan2pdf
(> 1.0) disarankan sebagai kandidat yang memungkinkan untuk PC Linux