Jawaban utama
Karena saya tertarik pada jenis pekerjaan yang sama (walaupun tidak perlu untuk OCR file PDF, tetapi untuk mengubahnya menjadi DjVu dan kemudian OCR mereka), saya menemukan pertanyaan ini dan tanggapannya kurang (karena saya perlu menebak DPI dari gambar dengan jumlah piksel dan kemudian gunakan ukuran sebagai keluaran oleh pdfinfo
atau trik lain --- belum lagi bahwa gambar di dalam PDF mungkin memiliki kepadatan yang berbeda, dll.).
Setelah banyak penelitian lebih lanjut, saya menemukan bahwa Anda dapat menggunakan pdfimages
(dari paket poppler-utils ) seperti berikut:
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
Perhatikan x-ppi
dan y-ppi
pada daftar di atas. Ini juga mencantumkan format penyimpanan gambar dalam PDF, yang keren (terkadang JBIG2, terkadang JPEG2000 dll.)
Catatan: File yang deptest.pdf
digunakan di atas tersedia dari pdfsizeopt
repositori .
Tindakan nyata
Setelah itu, Anda cukup mengekstraksi gambarnya pdfimages
sendiri atau menggunakan pdftoppm
(juga dari poppler-utils
) untuk merender seluruh halaman dalam banyak format yang mungkin Anda sukai (mis. Tiff, untuk pemindaian tesseract
).
Anda dapat menggunakan sesuatu seperti berikut ini (dengan asumsi Anda telah membuat direktori bernama imgs
tempat Anda meletakkan gambar Anda):
pdfimages -png Faraway-PRA.pdf imgs/prefix
File akan dibuat di dalam direktori imgs
dengan nama yang dimulai dengan prefix
, seperti pada:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
Anda dapat, kemudian, melakukan operasi apa saja yang Anda inginkan dengan alat seperti scantailor
atau apa pun yang Anda suka.
Lebih banyak jawaban langsung
Jika Anda hanya ingin OCR file PDF, Anda dapat menggunakan program yang terpelihara dengan baik dan sudah dikemas, yaitu ocrmypdf .
x-ppi
(resolusi x dalam DPI) dany-ppi
(resolusi y dalam DPI) TIDAK ditampilkan pada versi yang lebih lamapdfimages
yang datang dengan Ubuntu 14.04, misalnya. Apa yang tersedia di Ubuntu 18.04, bagaimanapun, tidak termasuk nilai-nilai ini.pdfimages -v
pada mesin Ubuntu 18.04 saya menunjukkan saya memiliki versi 0.62.0, yang memang memiliki fitur-fitur ini.