Saya mencari alat skrip offline yang membuat file PDF yang ada dapat dicari dengan menjalankan OCR di atasnya, mengganti file asli yang tidak dapat dicari dengan versi yang dapat dicari, dan dapat berjalan tanpa pengawasan.
Misalnya, www.pdfscannerapp.com - melakukan persis seperti yang saya butuhkan, tetapi hanya GUI - tidak dapat skrip.
Saya menyadari bahwa Evernote membuat file PDF dapat dicari, tetapi mereka hanya dapat dicari saat berada di dalam Evernote.
Saya tidak mencari OCR yang sempurna, bahkan OCR yang dapat diterima cukup baik, tetapi saya lebih suka utilitas kecil daripada paket perangkat lunak besar.
(Saya mengetahui pertanyaan serupa, namun berbeda tentang AD: Mencari Perangkat Lunak untuk dipindai atau Dikonversi ke PDF yang Dapat Ditelusuri dan Dapat Ditandatangani - namun, saya tidak perlu menandatangani atau mengisi PDF, dan persyaratan saya adalah bahwa solusinya dapat skrip)
EDIT:
1) Beberapa utilitas memungkinkan ekstraksi teks terstruktur, namun untuk diekstraksi, teks harus ada di sana; Saya terutama mengacu pada PDF yang dibungkus bitmap, seperti halnya dengan PDF biasa yang dihasilkan oleh scanner.
2) Saya belum tentu mencari solusi gratis, dan saya akan sangat senang membayar untuk utilitas yang baik yang hanya melakukan apa yang saya butuhkan, tetapi saya tidak mencari aplikasi besar dengan sejuta fitur yang mencakup fitur OCR tetapi yang biayanya tidak membenarkan membelinya hanya untuk fungsi OCR.
3) Seperti yang dinyatakan di atas, saya tidak mencari OCR yang sempurna, hanya OCR yang cukup dapat diterima. Sayangnya, dalam pengalaman saya, tesseract benar-benar di bawah ambang batas itu. Saya mendefinisikan "cukup diterima" OCR yang dapat, katakanlah, OCR tagihan utilitas sehingga setidaknya nomor akun (nomor pelanggan) dikenali dengan benar.
EDIT: "scriptable" atau "automatable", yaitu, dapat dipicu secara otomatis dan dijalankan tanpa pengawasan manusia apa pun.