Perangkat lunak ini sebagian didasarkan pada Tesseract, mesin OCR open source terbaik yang tersedia untuk saat ini. Sementara proyek ini diharapkan akan dirilis pada akhir tahun depan dan akan digunakan untuk proyek pemindaian buku Google, tim memiliki beberapa aplikasi menarik dalam pikiran:
- antarmuka layanan web
- PDF, kamera, dan layar OCR
- integrasi dengan alat pencarian desktop: Beagle, Spotlight, Google Desktop
OCRopus (tm) adalah analisis dokumen canggih dan sistem OCR, yang menampilkan analisis tata letak pluggable, pengenalan karakter pluggable, pemodelan bahasa alami statistik, dan kemampuan multi-bahasa.
Mesin OCRopus didasarkan pada dua proyek penelitian: pengenal tulisan tangan berkinerja tinggi yang dikembangkan pada pertengahan 90-an dan digunakan oleh biro Sensus AS, dan metode analisis tata letak kinerja tinggi yang baru.
OCRopus adalah pengembangan yang disponsori oleh Google dan pada awalnya ditujukan untuk throughput tinggi, upaya konversi dokumen volume tinggi. Kami berharap bahwa itu juga akan menjadi sistem OCR yang sangat baik untuk banyak aplikasi lainnya.
Tautan:
GOCR adalah program OCR (Pengenalan Karakter Optik), yang dikembangkan di bawah Lisensi Publik GNU. Ini mengkonversi gambar teks yang dipindai kembali ke file teks. Joerg Schulenburg memulai program, dan sekarang memimpin tim pengembang. GOCR dapat digunakan dengan ujung depan yang berbeda, yang membuatnya sangat mudah untuk port ke berbagai OS dan arsitektur. Itu dapat membuka berbagai format gambar, dan kualitasnya telah meningkat setiap hari.