Datang di masalah yang sama dan datang ke solusi berikut. Saya tidak masuk ke dokumentasi tentang bagaimana file pdf dibangun. Saya hanya membandingkan dua file pdf kosong dengan ukuran halaman yang berbeda.
Sepertinya pdf memiliki semua jenis atribut yang disematkan antara "<<" dan ">>". Saya menemukan bahwa info ukuran halaman ada dalam teks biasa dan dapat ditemukan dengan pencarian regex sederhana.
Ini mungkin atau mungkin tidak benar untuk semua pdf tetapi itu bekerja pada semua yang dapat saya temukan dari sumber yang berbeda.
Bagian yang relevan dapat terlihat seperti ini untuk halaman ukuran A4:
/MediaBox [0 0 595 842]
/MediaBox[0 0 595 842]
/MediaBox[ 0 0 595.32 841.92]
Ini berarti [0 0 lebar lebar] jadi di sini adalah solusi super timpang saya tetapi berfungsi untuk mengekstrak ini:
cat test.pdf | egrep -ao "/MediaBox ?\[ ?[0-9]+ [0-9]+ [0-9]+(\.[0-9]+)? [0-9]+(\.[0-9]+)?\]" | head -1
Ubah saja test.pdf ke file Anda.