Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin terkait postingan, OCR dengan ubuntu di sini .
pdftotext
= pdfcat
.
Saya perlu file PDF ke teks sehingga saya dapat mencari mereka secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin terkait postingan, OCR dengan ubuntu di sini .
pdftotext
= pdfcat
.
Jawaban:
Anda punya banyak pilihan!
pdftotext
dari poppler telah disebutkan.
Ada program Haskell yang disebutpdf2line
yang bekerja dengan baik.
kaliber 's ebook-convert
Program commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengkonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya itu menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.
ebook-convert file.pdf file.txt
AbiWord dapat mengkonversi antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:
abiword --to=txt file.pdf
Namun pilihan lain adalah podofotextextract
dari perpustakaan alat podofo PDF. Saya belum benar-benar mencobanya.
Jika Anda menggabungkan dua alat Ghostscript, pdf2ps
dan ps2ascii
, Anda memiliki pilihan lain.
Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan membiarkannya untuk saat ini. ;)
pdftotext
memberikan hasil yang lebih akurat daripada ebook-convert
dan sangat cepat. ebook-convert
lamban.
pdftotext
dengan -layout
batu pilihan! calibre
membutuhkan lebih dari 600mb untuk menginstal! Itu gila)
Anda dapat mengonversi PDF ke teks pada baris perintah dengan pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
package).
Anda dapat menggunakan Recoll
(Ubuntu: recoll ; OpenBSD: no port, tetapi ada satu untuk FreeBSD .) Untuk mencari di dalam berbagai jenis dokumen teks yang diformat, termasuk PDF. Ada GUI, dan itu membangun indeks secara otomatis di bawah tenda. Ini digunakan pdftotext
untuk mengkonversi PDF ke teks.
Acrobat Reader (setidaknya versi 9 di Linux) memiliki kemampuan pencarian multi-file terbatas (Anda dapat mencari di semua file dalam direktori).
pdftotext kemungkinan yang Anda cari: http://en.wikipedia.org/wiki/Pdftotext kecuali teks yang ingin Anda ekstrak benar-benar di bawah bentuk grafis, yang tidak biasa dengan dokumen pdf.
gPDFText mengonversi konten PDF ebook menjadi teks ASCII, diformat ulang untuk paragraf garis panjang, Ini berfungsi untuk saya dan memiliki antarmuka grafis.
gPDFText
dapat diperoleh, bagaimana itu dapat diinstal dan bagaimana itu akan digunakan untuk menjawab pertanyaan OP.