Apakah ada semacam PDF ke text -converter?


21

Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?

Mungkin terkait postingan, OCR dengan ubuntu di sini .



Jika itu adalah PDF "nyata" (terbuat dari teks, dll) pdftotext adalah taruhan terbaik Anda. Jika gambar, taruhan terbaik Anda adalah beberapa hal OCR.
vonbrand

1
Saya selalu menggunakan pdftotext= pdfcat.
isomorphismes

Jawaban:


22

Anda punya banyak pilihan!

pdftotextdari poppler telah disebutkan.

Ada program Haskell yang disebutpdf2line yang bekerja dengan baik.

kaliber 's ebook-convertProgram commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.

ebook-convert file.pdf file.txt

AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:

abiword --to=txt file.pdf

Namun pilihan lain adalah podofotextextractdari perpustakaan alat podofo PDF. Saya belum benar-benar mencobanya.

Jika Anda menggabungkan dua alat Ghostscript, pdf2psdan ps2ascii, Anda memiliki pilihan lain.

Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan membiarkannya untuk saat ini. ;)


ebook-convert calibre ... pernahkah Anda melihat apa yang terjadi pada ligatur? Bleargh. mari kita begini: itu bukan program yang sangat efektif. pdftotext jauh lebih setia. saya belum pernah menemukan kesalahan dalam outputnya.
ixtmixilix

1
Anda dapat menggunakan lebih sedikit untuk melihat file pdf sebagai teks. Itu memanggil preprocessor, yaitu lesspipe, untuk memanggil pdftotext atau alat serupa.
Daniel Näslund

pdftotextmemberikan hasil yang lebih akurat daripada ebook-convertdan sangat cepat. ebook-convertlamban.
Amit Patel

pdftotextdengan -layoutbatu pilihan! calibremembutuhkan lebih dari 600mb untuk menginstal! Itu gila)
Stalinko

9

Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Anda dapat menggunakan Recoll (Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan pdftotextuntuk mengkonversi PDF ke teks.

Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).



-1

gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.


3
Hai dan selamat datang di situs ini. Kami ingin jawaban menjadi sedikit lebih komprehensif di sini. Misalnya, Anda dapat menambahkan di mana gPDFTextdapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.
terdon
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.