Tetapi bagaimana ini mungkin?
Pada dasarnya, sebuah program melakukan OCR pada file input dan kemudian menempatkan lapisan teks yang tidak terlihat di atas gambar. Atau, itu mungkin juga menempatkan lapisan teks yang terlihat di bawah gambar, memberikan efek yang sama.
Ketika Anda memilih sesuatu, gambar itu tidak masalah karena lapisan teks akan dipilih.
bagaimana ini bisa dibuat?
Ada beberapa cara. Mengingat Acrobat telah disarankan, saya akan menambahkan beberapa opsi gratis (dan untungnya Anda tidak dipaksa memiliki Windows untuk menggunakannya).
PDF-XChange Viewer
Ini adalah program Windows asli oleh Tracker Software . Versi freeware berjalan dengan baik di bawah Wine jika Anda menggunakan edisi 32-bit dalam awalan 32-bit, oleh karena itu Anda dapat menggunakannya pada Windows, macOS dan Linux. Dalam dua kasus terakhir, Anda akan membutuhkan PlayOnMac atau PlayOnLinux masing-masing.
Inilah gambar dari jawaban ini yang saya tinggalkan di Tanya Ubuntu:
OCRmyPDF
Ini adalah program multiplatform yang ditulis dalam Python , berdasarkan Ghostscript, Tesseract dan Unpaper. Dari dokumen:
Apa yang dilakukan OCRmyPDF
OCRmyPDF menganalisis setiap halaman PDF untuk menentukan ruang warna dan resolusi (DPI) yang diperlukan untuk menangkap semua informasi di halaman itu tanpa kehilangan konten. Ini menggunakan Ghostscript untuk meraster halaman, dan kemudian melakukan pada OCR pada gambar raster untuk membuat "layer" OCR. Lapisan kemudian dicangkokkan kembali ke PDF asli.
Itu dapat dengan mudah diinstal pada turunan Debian dan Ubuntu:
apt-get install ocrmypdf
Atau di macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Pada Windows Anda harus menggunakan gambar Docker. Lihat dokumen resmi untuk detailnya.
Penggunaannya sangat sederhana dan saya sarankan Anda menggunakan parameter -d
(deskew) dan -c
(bersih) opsional untuk hasil yang lebih baik. Ini akan meluruskan setiap halaman dan membersihkan titik-titik kecil / ketidaksempurnaan sebelum menjalankan proses OCR.
Anda dapat (dan harus) menyediakan bahasa tersebut -l
.
Berikut ini contoh yang diambil dari dokumen miring ini yang ditulis dalam bahasa Italia:
Perintah yang saya gunakan adalah:
ocrmypdf -l ita -d -c input.pdf output.pdf
Alat online
Ada beberapa alat online yang melakukan hal yang sama. Yang perlu dicatat, PDF24 meng-host versi OCRmyPDF berbasis web gratis yang dapat digunakan tanpa batasan.
Lihat juga: