Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin terkait postingan, OCR dengan ubuntu di sini .
pdftotext= pdfcat.
Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin terkait postingan, OCR dengan ubuntu di sini .
pdftotext= pdfcat.
Jawaban:
Anda punya banyak pilihan!
pdftotextdari poppler telah disebutkan.
Ada program Haskell yang disebutpdf2line yang bekerja dengan baik.
kaliber 's ebook-convertProgram commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.
ebook-convert file.pdf file.txt
AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:
abiword --to=txt file.pdf
Namun pilihan lain adalah podofotextextractdari perpustakaan alat podofo PDF. Saya belum benar-benar mencobanya.
Jika Anda menggabungkan dua alat Ghostscript, pdf2psdan ps2ascii, Anda memiliki pilihan lain.
Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan membiarkannya untuk saat ini. ;)
pdftotextmemberikan hasil yang lebih akurat daripada ebook-convertdan sangat cepat. ebook-convertlamban.
pdftotextdengan -layoutbatu pilihan! calibremembutuhkan lebih dari 600mb untuk menginstal! Itu gila)
Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Anda dapat menggunakan Recoll
(Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan pdftotextuntuk mengkonversi PDF ke teks.
Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).
pdftotext kemungkinan yang Anda cari: http://en.wikipedia.org/wiki/Pdftotext kecuali teks yang ingin Anda ekstrak benar-benar di bawah bentuk grafis, yang tidak biasa dengan dokumen pdf.
gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.
gPDFTextdapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.