Saya memiliki file PDF yang berisi peta gedung tempat saya bekerja, di sini:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
File sumber asli telah hilang, dan saya diminta untuk mengekstrak gambar peta, lebih disukai tanpa teks dan ikon yang telah di-overlay di atasnya. Ini terbukti sangat sulit.
Sejauh ini, saya telah mencoba program GUI berikut:
- Adobe Reader: memungkinkan saya memilih teks, tetapi bukan gambar latar belakang
- FoxIt PDF Viewer: memungkinkan saya memilih teks, tetapi bukan gambar latar belakang
- XPDF di Ubuntu 10.10: memungkinkan mes memilih teks, tetapi bukan gambar latar belakang
Dan juga program-program command-line berikut:
- pdfimages: mengekstrak ikon yang menunjukkan kamar mandi baik-baik saja, tetapi bukan gambar latar belakang
- pdftohtml: sama seperti pdfimages, ditambah itu membuat dokumen HTML yang ditandai dengan buruk
- pdfextract: sama seperti pdfimages
- convert: gambar berhasil disimpan, tetapi dengan teks dibakar ke dalamnya
Saya bahkan sudah mencoba membuka PDF secara manual dalam editor teks dan mengekstraksi objek stream dengan menempelkannya ke file baru dan menyimpannya dengan ekstensi .jpg, .png, atau .bmp (masing-masing pada gilirannya). Mengingat betapa sedikitnya yang saya ketahui tentang struktur internal file PDF, tidak mengherankan bahwa ini tidak berhasil.
Jadi ... apakah ada cara saya dapat mengambil gambar peta dari benda ini tanpa juga mendapatkan teks dan ikon?
qpdf
untuk mengubah bagian biner menjadi ASCII sejauh mungkin. (2) Gunakan editor teks untuk membuat semua teks tidak terlihat yang tidak ingin saya lihat di layar atau di cetakan (dapat dicapai dengan mudah dan tanpa merusak tabel XRef dengan mengibarkan bendera yang tidak terlihat ). (3) Distilasi ulang hasil dengan Ghostscript untuk mereduksi ukurannya sebanyak mungkin. - Sayangnya, file Anda tidak lagi dapat diunduh untuk menunjukkan prosedur ...