Saya memiliki sejumlah dokumen yang dipindai dalam pdf dan saya ingin dapat mencarinya. Bagaimana saya bisa melakukan itu?
Pada dasarnya saya harus OCR pdf dan kemudian mencampur teks yang diekstraksi kembali ke pdf baru. Saya gagal mencoba sejumlah solusi yang berbeda (termasuk yang ditemukan di Menambahkan info OCR ke PDF ).
- pdfocr (yang memberi saya masalah ini: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (di mana pusat perangkat lunak mengatakan itu adalah paket yang buruk dan saya tidak boleh menginstalnya)
- OCRfeeder (di pusat perangkat lunak) mengekspor ke odt dengan baik, tetapi tidak bereaksi ketika mengekspor ke pdf.
- Gscan2pdf mengekspor gambar semua hitam (tetapi dapat dicari) seperti yang dilaporkan dalam diskusi ini .
- Saya tidak berpikir penampil Pdfxchange dapat menangani melakukan OCR dengan cepat pada file lebih dari 500 halaman.
Apakah ada paket perangkat lunak yang tidak saya sadari? Atau skrip yang melakukan ini?
pdf2searchablepdf
. Itu bergantung tesseract
. Itu bekerja dengan baik. Sangat mudah digunakan. Lihat disini. askubuntu.com/a/1187881/327339