Saya menggunakan OSX dan ingin dapat mengkonversi file pdf ke teks.
Saya ingin aplikasi gratis untuk melakukan ini, karena saya yakin pasti ada beberapa.
Saya menggunakan OSX dan ingin dapat mengkonversi file pdf ke teks.
Saya ingin aplikasi gratis untuk melakukan ini, karena saya yakin pasti ada beberapa.
Jawaban:
Berikut adalah langkah-langkah yang saya gunakan untuk menginstal dan menggunakan xpdf via Homebrew.
Instal dependensi Homebrew:
xcode-select --install
Instal Homebrew dari situs web mereka:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Lakukan apa yang diperintahkan untuk menyelesaikan instalasi Homebrew.
Verifikasi bahwa Homebrew bahagia dan berfungsi dengan baik.
brew doctor
Selanjutnya instal xpdf dan dependensinya:
brew install Caskroom/cask/xquartz
brew install xpdf
Terakhir, gunakan pdftotext, paket yang disertakan dengan xpdf suite:
pdftotext Some_Document.pdf Some_Document.txt
Nama file pertama adalah PDF yang sudah ada; yang kedua adalah tujuannya. Hasilnya jauh lebih baik daripada dengan versi Adobe Acrobat (memang lama). Sunting: Versi baru (2019) dari Adobe Acrobat menunjukkan hasil yang sama buruknya.
xquartz
tidak diperlukan untuk alat konsol di xpdf
. Selain itu, ada poppler
garpu xpdf
yang tampaknya jauh lebih aktif dipelihara: github.com/scraperwiki/scraperwiki-python/issues/…
Berbagai metode.
Gunakan dokumen Google (Anda akan memerlukan akun Google)
Gunakan Automator (diperlukan beberapa pekerjaan)
Anda dapat menggunakan Automator untuk membuat alur kerja yang dapat mengekstrak teks dari PDF dan menyimpannya sebagai teks atau dokumen RTF.
atau aplikasi dari App Store, mis. PDF ke Teks
xpdf
yang saya instal dengan port:
port install xpdf
mengandung:
xpdf-pdftotext
Itu melakukan apa yang Anda inginkan untuk file PDF apa pun yang berasal dari file teks (dan bukan dari gambar):
xpdf-pdftotext PDF_file text_file
Versi Adobe Reader saat ini (11.0.09) memiliki item "Save as Other" di Menu File-nya.
Salah satu opsi adalah Teks .
Aplikasi ini gratis, dan melakukan pekerjaan yang baik untuk menghasilkan file teks. Semua gambar dalam dokumen baru akan hilang dengan format .txt.
Saya pikir Anda harus dapat menyalin dan menempelkan teks ke dokumen lain. Untuk memilih semua teks
Perhatikan bahwa jika Anda mencoba dan melakukan ini, dan tidak ada teks yang disisipkan, hanya sekelompok baris kosong, coba cetak PDF Anda ke PDF baru terlebih dahulu, misalnya
Sekarang coba proses di atas dengan PDF baru ini. Bekerja untukku!
PS: Jika Anda memiliki Microsoft Word, Anda mungkin dapat membuka PDF dalam kata
Skrip python berikut akan menampilkan teks dari dokumen PDF ke file .txt. (Catatan: Tidak ada jaminan bahwa teks tersebut harus dalam urutan yang dapat dibaca manusia 'logis', karena cara data disimpan dalam format PDF.)
Skrip akan membuat file teks untuk file PDF apa pun yang disediakan sebagai argumen padanya pada baris perintah (misalnya pdf2txt.py myPDF.pdf
), atau Anda dapat menggunakan tindakan Automator "Run Shell Script", mengatur jenis shell ke python dan Mengirim input ke "As argumen" . Kemudian Anda dapat menggunakannya sebagai Tindakan Cepat atau DropApp.
#!/usr/bin/python
# coding: utf-8
import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4
def pdf2txt():
for filename in sys.argv[1:]:
inputfile =filename.decode('utf-8')
shortName = os.path.splitext(filename)[0]
outputfile = shortName+" text.txt"
pdfURL = NSURL.fileURLWithPath_(inputfile)
pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
if pdfDoc :
pdfString = NSString.stringWithString_(pdfDoc.string())
pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)
if __name__ == "__main__":
pdf2txt()
if pdfDoc
pernyataan dengan print(pdfDoc.string())
.