Memfilter gambar yang agak “setengah kencang” untuk pemrosesan OCR

10

Saya memiliki bahan PDF yang dipindai yang ingin saya tambahkan lapisan teks tersembunyi, sehingga saya dapat mengindeks dokumen. Saya menggunakan ghostscript black dan white tiff output device (tiffg4) untuk mengekstrak halaman sebagai gambar tiff, dan berikut ini contoh tampilannya:

masukkan deskripsi gambar di sini

Memproses gambar ini dengan tesseract, tidak memberikan hasil yang baik.
Mengubah output ghostscript DPI (600, 300, 150, 96) menunjukkan bahwa gambar pada 96 DPI memberikan hasil terbaik dari tesseract tetapi masih belum memuaskan.

Sekarang saya berpikir untuk meminta saran filter mana yang akan meningkatkan gambar ini untuk pemrosesan OCR.

Saya bisa menggunakan imagemagick, atau numpy / scipy / ndimage

image-processing ocr

— zetah
sumber

9

Apa yang sebenarnya Anda butuhkan mungkin adalah beberapa operasi morfologis seperti pelebaran diikuti oleh erosi. Ini disebut sebagai operasi Penutupan . Mungkin dalam kasus Anda - pelebaran saja mungkin baik.

Ada pertanyaan serupa yang diajukan sebelumnya - yang dapat membantu dengan aspek lain.

konversi gambar monokrom (1-bit hitam-putih)

Bagaimana cara merekonstruksi teks dari gambar hanya menggunakan operasi morfologis?

— Dipan Mehta
sumber

2

Anda dapat menghapus ini menggunakan filter low-pass. baik itu dilakukan di ruang frekuensi, atau hanya mengambil (perbedaan) gaussian gambar.

— Christoph Rackwitz
sumber