Pertama, Anda harus mengerti apa itu PDF. PDF dirancang untuk meniru halaman yang dicetak, dan mereka dirancang hanya sebagai format output, bukan format input. PDF pada dasarnya adalah peta yang berisi lokasi tepat karakter (huruf individu atau tanda baca, dll.) atau gambar. Dalam kebanyakan kasus , PDF bahkan tidak menyimpan informasi tentang di mana satu kata berakhir dan yang lain dimulai, apalagi hal-hal seperti istirahat ringan vs istirahat keras untuk akhir paragraf.
(Beberapa PDF terakhir memang menyimpan beberapa informasi tentang hal ini, tetapi itu adalah teknologi baru, dan Anda akan beruntung menemukan PDF seperti itu. Bahkan jika Anda melakukannya, pemirsa PDF Anda mungkin tidak mengetahuinya.)
Pokoknya, tergantung pada perangkat lunak Anda untuk menerapkan semacam "kecerdasan buatan" untuk mengekstraksi dari lokasi masing-masing karakter apa kata, apa paragraf, dan sebagainya. Perangkat lunak yang berbeda akan melakukan ini lebih baik daripada yang lain, dan itu juga akan tergantung pada bagaimana PDF dibuat. Bagaimanapun, Anda seharusnya tidak mengharapkan hasil yang sempurna. Memiliki output PDF tidak sama dengan memiliki dokumen sumber. Jauh lebih baik mencoba mendapatkannya jika Anda bisa.
Solusi standar untuk masalah Anda adalah menggunakan Adobe Acrobat Professional (yang mahal, bukan pembaca gratis) untuk mengonversi PDF ke HTML. Bahkan itu pun tidak akan mendapatkan hasil yang sempurna.
Ada perangkat lunak gratis yang dapat digunakan untuk mengekstrak teks dari PDF dengan beberapa format utuh, tetapi sekali lagi, jangan berharap hasil yang sempurna. Lihat, misalnya, kaliber (yang dapat dikonversi ke format RTF), pdftohtml / pdfreflow atau pengolah kata AbiWord (dengan semua plugin impor / ekspor diaktifkan). Ada juga plugin impor PDF untuk OpenOffice.
Tapi tolong jangan berharap kesempurnaan dengan hasil ini. Anda menentang gandum di sini. PDF tidak dimaksudkan sebagai format input yang dapat diedit.