tl; dr? Mulai dengan Nuance PowerPDF Advanced.
Saya mengevaluasi perangkat lunak OCR pada Desember 2014 sebagai persiapan untuk proyek besar - OCR pada jutaan halaman berbahasa Inggris yang dikerjakan dalam batch. Jika Anda bersedia menghabiskan beberapa ratus dolar, Anda memiliki banyak pilihan; versi uji coba dapat membantu Anda jika Anda hanya perlu mengonversi beberapa ratus halaman.
Banyak paket perangkat lunak ingin memuat semua file input, melakukan OCR dan menyatukan kekacauan menjadi satu output. IMHO ini salah, saya tidak tahu siapa yang mau itu. Saya mencari batch yang benar: satu file output untuk setiap file input, operasi tanpa pengawasan, jangan berhenti untuk apa pun, beri saya laporan terperinci di akhir. Peringatan spoiler: Saya tidak menemukan itu.
Paket mengikuti abjad. Harga yang ditunjukkan di bawah ini adalah daftar tetapi diskon berlimpah. Ambil komentar saya tentang akurasi dengan sebutir garam; input Anda tidak akan sama dengan input saya sehingga jarak tempuh Anda tentu akan bervariasi.
ABBYY Finereader 12 Perusahaan: $ 400. Fitur batch disebut "Task Manager" dan ada di menu Tools. Ini akan memproses file dari folder, termasuk subfolder; itu akan dengan senang hati membuat file output terpisah untuk setiap file input. Tampaknya tidak mampu mempertahankan hierarki folder input; semua file output pergi ke folder output yang sama. Akurasi dalam tes saya tinggi, namun masih yang terendah dari paket yang saya daftarkan di sini.
Adobe Acrobat XI: $ 300. Fitur batch disebut "Pengenalan Teks / Dalam Banyak File" yang dapat ditemukan dengan mengklik Tools (toolbar ketiga, sisi kanan atas layar utama). Memproses subfolder, satu output untuk setiap input. Berhenti dan memasang prompt jika menemukan file yang dilindungi kata sandi. Tidak mempertahankan pohon direktori input secara default; dapat melakukannya dengan menulis output ke folder yang sama dengan input. Akurasi cukup bagus dalam tes saya.
Nuance OmniPage Ultimate (alias v19): $ 500. Fitur batch disebut "DocuDirect" dan ini adalah program terpisah yang disertakan dengan paket. Ini akan memproses folder dan subfolder; jika Anda memilih fitur yang tepat, itu akan mempertahankan pohon direktori input di area output. Satu output untuk setiap input. Berhenti dan menuntut kata sandi untuk file yang dilindungi. Tampaknya memanfaatkan keunggulan prosesor multi-core untuk menjalankan tugas secara paralel. Akurasi sangat bagus . Tetapi stabilitas prosesor batch buruk; dokumen fuzzy akan menghentikannya, tidak pernah pulih, menggagalkan batch dengan mudah.
Nuance PowerPDF Advanced v1.1 (penerus OmniPage Ultimate): $ 150. Fitur Batch disebut "Batch Converter" dan dapat dijangkau dari program utama di bawah tab Pemrosesan Lanjut. Ini akan memproses folder dan subfolder, mempertahankan struktur input dalam output. Satu output untuk setiap input. Akan menggunakan banyak core, tetapi tidak agresif; apa itu artinya saya tidak bisa membuatnya menjenuhkan host multi-core. Akurasi adalah excllent , sebagai baik atau lebih baik dari OmniPage. File yang buruk atau kabur tidak menyebabkannya hang. Prosesor batch menulis ( guncangan ) file log teks biasa ke direktori output.
ReadIris Corporate 14: $ 600. Fitur batch dipanggil oleh item "Batch OCR" yang diungkapkan dengan mengklik tombol "Dari File" di layar utama. Ini akan memproses folder dan subfolder, satu output untuk setiap input, dan secara default struktur direktori output cocok dengan struktur direktori input. Berhenti dan meminta input pengguna pada file yang tidak valid; proses tanpa keluhan lebih lanjut semua dokumen yang dilindungi tampaknya dengan OCR-ing gambar. Akurasinya sangat bagus, setara dengan Acrobat.
Pada mesin desktop saya (hanya dual core), dengan input yang saya pilih, setiap paket membutuhkan setidaknya 3 detik untuk memproses halaman; beberapa mengambil lebih banyak. Mungkin bisa mengendarainya di mesin dengan core lebih banyak.
Gotchas berlimpah, pastikan untuk merencanakannya: PDF yang tidak valid (beberapa paket berhenti), PDF yang dilindungi kata sandi (beberapa paket berhenti, bagaimanapun juga!), Dan halaman yang dirotasi (lanskap bukan potret). Jika Anda ingin batch dijalankan hingga selesai, Anda harus menyiapkan area input untuk paket-paket ini Sangat, Sangat Hati-hati. Lihatlah ke fitur cetak-ke-PDF paket GhostScript untuk cara menghapus perlindungan dari PDF.
Menjalankan batch besar dapat menyebabkan memori-kelelahan dan masalah gantung, bahkan seharusnya tidak (argh - mungkin kebocoran memori). Jika Anda melakukan otomatisasi apa pun, masalah besar adalah menemukan setelah fakta apa yang sebenarnya terjadi - dokumen mana yang tidak dapat diproses, yang gagal selama pemrosesan, dll. Seperti perangkat lunak desktop yang orang tidak pernah mendengar tentang sesuatu yang disebut "file log".
Akhirnya mendapatkan dukungan, bahkan sebagai pelanggan yang membayar, cukup sulit untuk paket pasar massal ini. Misalnya saya mengeluh kepada satu perwakilan dukungan pelanggan yang terhormat tentang sebuah paket (yang akan tetap tanpa nama) tergantung pada beberapa input besar. Saya menunggu 36 jam sebelum menyerah :). Mereka dengan manis menyarankan membatasi ukuran batch menjadi 300 dokumen. Itu hanya benar-benar tidak dapat diterima bagi saya, tapi hei itu mendapatkan tiket dukungan ditutup dengan cepat, kan? Dan hanya itu yang penting, bukan? Mendesah.
HTH