Rekomendasi perangkat lunak Pengenalan Karakter Optik?


15

Saya telah melihat beberapa ebook / kertas yang tampaknya dipindai dari versi kertas mereka tetapi teks dalam ebooks / kertas luar biasa dapat disalin. Saya kira versi yang dipindai langsung harus diproses oleh beberapa perangkat lunak Pengenalan Karakter Optik.

Jadi saya ingin tahu apa saja software Pengenalan Karakter Optik yang direkomendasikan? Terutama yang untuk Ubuntu atau gratis? Jika itu untuk Windows jauh lebih unggul, beri tahu saya juga.

Saya khususnya tertarik pada OCR yang dapat menerima file pdf yang dipindai sebagai input dan masih menghasilkan sebagai output file pdf lain yang terlihat sama dengan input tetapi dengan teks yang dapat disalin.

Terima kasih dan salam!

Harap batasi satu perangkat lunak per jawaban

Jawaban:


10

Tesseract OCR Instal Tesseract OCR

Mesin asli dikembangkan kembali pada akhir 80-an oleh HP dan IBM tetapi telah terbukti menjadi salah satu Perangkat Lunak Pengakuan Mata terbaik yang pernah saya gunakan. Baru-baru ini mengalami banyak pembaruan untuk mesin dan telah menjadi salah satu alat OCR paling komprehensif di pasar. Outscoring terhadap sebagian besar semua alat OCR lainnya (dengan sesuatu dalam persentasi teks 90 persen lebih tinggi) dapat dengan mudah mengubah tipe dokumen standar-muka menjadi teks.

Berikut ini adalah contohnya:

tesseract ScannedDocument.png out

Akan menghasilkan file bernama out.txt


Terima kasih! Saya tidak melihat bahwa Tesseract mendukung output pdf. Apakah Anda tahu tentang ini?
StackExchange untuk Semua

@Tim, awalnya saya tidak percaya Tesseract mendukung banyak format input / output. Namun, seperti jawaban JanC menyebutkan, gscan2pdf menggunakan Tesseract untuk OCR, dan seperti namanya, itu mendukung output PDF.
Tim Lytle

Perhatikan bahwa OCR adalah singkatan dari Optical Character Recognition: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

Proyek lain yang harus dapat melakukan ini adalah gscan2pdf

sudo apt-get install gscan2pdf

Proyek ini juga dapat menggunakan Tesseract, serta alat OCR open source lainnya.


3

Saya tidak tahu OCR untuk Ubuntu, tetapi untuk Windows ada satu yang memiliki fitur yang Anda butuhkan. Itu ABBYY FineReader ini adalah halaman tetapi tidak gratis


1
Saya menggunakan FineReader persis seperti yang diinginkan Tim (untuk membuka PDF yang dilindungi)
Extender

3

Solusi gratis ada di repos, CunieForm (dan YAGF sebagai antarmuka Gnome untuk itu)


Terima kasih! Apakah CunieForm mendukung pdf sebagai format input dan output? Saya tidak melihat ini di halaman Wikipedia dan halaman resminya.
StackExchange for All

Mungkin tidak, tetapi membagi PDF ke seri TIFF adalah tugas yang sederhana :)
Extender

3

Sepertinya proyek Decapod melakukan atau akan mengekspor ke PDF, jadi Tesseract harus entah bagaimana mengekspor informasi yang diperlukan untuk mengetahui di mana teks apa yang ditemukan.


1

Adobe Acrobat (bukan pembaca, bukan aplikasi gratis) mampu OCR-ing dokumen PDF yang dipindai dan menambahkan lapisan teks tak terlihat di atas gambar, sehingga teks dapat dipilih dan disalin. Sayangnya saya tidak memiliki kemudahan untuk memeriksa di mana tepatnya fitur itu berada di UI Acrobat, tetapi saya telah berhasil menggunakannya beberapa kali untuk tujuan yang sama seperti yang Anda sebutkan.

Dan ya, ini adalah perangkat lunak Windows, bukan Linux, tetapi menurut database aplikasi Wine HQ, ia berfungsi di bawah Wine .


1

Perangkat lunak OCR terbaik biasanya tertanam dalam printer / pemindai / mesin fotokopi. Canon IRC 3880 di kantor saya dapat menghasilkan pdf OCR yang luar biasa lebih mudah dan lebih cepat daripada program desktop apa pun yang saya tahu. Letakkan buku di baki (tidak terikat), pilih alamat surat Anda, tekan tombol hijau.

Sebagian besar pdf OCR yang dapat Anda temukan di internet berasal dari mesin yang serupa. Masalahnya adalah bahwa harga terlalu tinggi untuk penggunaan di rumah (sekitar 12.000 euro IRC).




Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.