Sejak hari ini saya mengetahuinya: hal terbaik untuk ekstraksi teks dari PDF adalah TET, toolkit ekstraksi teks . TET adalah bagian dari rangkaian produk PDFlib.com.
PDFlib.com adalah perusahaan Thomas Merz. Jika Anda tidak mengenali namanya: Thomas Merz adalah penulis "PostScript dan PDF Bible".
Inkarnasi pertama TET adalah perpustakaan . Yang satu itu mungkin dapat melakukan semua yang diinginkan Budda006, termasuk informasi posisi tentang setiap elemen pada halaman. Oh, dan itu juga bisa mengekstrak gambar. Ini menggabungkan gambar yang terfragmentasi menjadi potongan-potongan.
pdflib.com juga menawarkan inkarnasi lain dari teknologi ini, plugin TET untuk Acrobat . Dan inkarnasi ketiga adalah PDFlib TET iFilter . Ini adalah alat mandiri untuk desktop pengguna. Keduanya gratis (seperti bir) untuk digunakan untuk keperluan pribadi, non-komersial.
Dan itu sangat kuat. Jauh lebih baik daripada ekstraksi teks Adobe sendiri. Ini mengekstraksi teks untuk saya di mana alat lain (termasuk Adobe) memang memuntahkan sampah saja.
Saya baru saja menguji alat standalone desktop, dan apa yang mereka katakan di halaman web mereka benar. Ini memiliki commandline yang sangat bagus. Beberapa file tes PDF "bermasalah" saya yang ditangani alat ini dengan kepuasan penuh.
Hal ini akan menjadi rekomendasi saya untuk setiap persyaratan ekstraksi teks PDF yang canggih dan menantang.
TET sangat mengagumkan. Mendeteksi tabel. Di dalam tabel, ini mengidentifikasi sel yang mencakup beberapa kolom. Ini mengidentifikasi baris tabel dan konten dari setiap sel tabel secara terpisah. Ini berurusan dengan sangat baik dengan tanda hubung: menghilangkan tanda hubung dan mengembalikan kata lengkap. Ini mendukung bahasa non-ASCII (termasuk CJK, Arab dan Ibrani). Saat menemukan ligatur, mengembalikan karakter asli ...
Cobalah.