Jawaban:
Ada sejumlah pembaca OCR untuk linux yang dapat mengkonversi dari gambar ke teks. Lihatlah opsi-opsi berikut:
Semua yang di atas, kecuali ocropus, hadir di repositori Ubuntu dalam paket dengan nama yang sama.
Pembaca yang berbeda mendukung format gambar yang berbeda, sehingga Anda mungkin terbatas dalam opsi dengan format file yang digunakan oleh dokumen Anda. Atau, Anda dapat menggunakan alat konversi dari ImageMagick untuk mengubah format jika Anda ingin menggunakan pembaca OCR tertentu.
Diadaptasi dari jawaban saya di sini .
Anda harus menginstal "tesseract-ocr" pada mesin linux Anda terlebih dahulu.
sudo apt-get install tesseract-ocr
Anda dapat melakukannya secara manual dari CLI atau saya telah membuat kode PHP untuk hal yang sama, Anda dapat menggunakannya jika Anda mau.
Catatan: Untuk menjalankan kode ini, perintah exec harus diaktifkan di php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
letakkan kode ini di folder root dan akses dari browser,
misalnya:
http://yourserver.com?input_file=1.png
Catatan: File 1.png harus ada di direktori Anda saat ini.
Saya tidak punya hak untuk mengunggah gambar, saya telah menggunakan gambar ini untuk referensi, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview