Jawaban:
coba opsi psm.
-psm N
Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR.
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
Referensi: http://hilojack.sinaapp.com/?p=866
Memproses gambar Anda menjadi warna latar ambang. Ubah warna teks menjadi hitam (untuk pengenalan yang lebih baik. Setelah Anda mengirik latar belakang, seharusnya cukup sederhana untuk mengubah nilai warna.) Ubah gambar Anda menjadi skala abu-abu. Kemudian konversikan ke .tif
format.
Sekarang Anda mungkin memiliki kesempatan untuk memproses gambar itu (pengguna super tidak membiarkan saya memposting gambar jadi saya menautkannya):
Sekarang jalankan perintah berikut:
tesseract test.tif test_output -psm 7
dan hasilnya adalah:
Tist
Yang cukup bagus mengingat bahwa saya belum menggunakan data pelatihan tambahan di samping eng standar.