Alasan pdftotext tidak berhasil mungkin karena PDF adalah gambar yang dipindai dan Anda perlu OCR mereka, saya menulis cara cepat untuk mencari semua pdf
yang tidak dapat grep
diedit dan OCR mereka.
Saya perhatikan jika pdf
file tidak memiliki font apa pun biasanya tidak dapat dicari. Mengetahui hal ini bisa kita gunakan pdffonts
.
2 baris pertama pdffonts
adalah header tabel, jadi ketika sebuah file dapat dicari memiliki lebih dari dua output baris, dengan mengetahui hal ini kita dapat membuat:
gedit check_pdf_searchable.sh
rekatkan ini
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
kemudian membuatnya bisa dieksekusi
chmod +x check_pdf_searchable.sh
kemudian daftarkan semua pdf yang tidak dapat dicari di direktori:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
atau dalam direktori dan subdirektori-nya:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Anda juga perlu menginstal:
sudo apt install ocrmypdf