Mengubah DJVU ke PDF


40

Saya ingin mengubah dokumen DJVU menjadi dokumen PDF, memisahkan dan melestarikan lapisan teks dan gambar sementara juga menjaga struktur dari DJVU. Bagaimana saya bisa melakukan ini di Ubuntu?

(Saya kemudian akan menggunakan Calibre untuk mengonversi ke ePub / Mobi, jadi jika ada plug-in Calibre untuk seluruh proses ini yang akan sempurna bagi saya!)

Catatan1: Mencetak dari Evince, mengekspor dari DJview, atau apa pun menggunakan paket ddjvu , bukan solusi yang memadai karena mereka membuang lapisan teks, hanya menyimpan gambar.

Note2: Menggunakan DJVULibre tampaknya hanya mengekstraksi layer teks dan gambar tidak diekstraksi . Demikian pula, menyalin teks "secara manual" kehilangan struktur dokumen dan gambar.

Jawaban:


38

Metode 1

Cukup gunakan DJView dan ekspor sebagai PDF

  1. Manajer Paket Synaptic Goto
  2. Instal DJview4
  3. Jalankan DJview (Aplikasi - Grafik - DJView4)
  4. Buka dokumen .djvu Anda
  5. : Menu - Ekspor Sebagai: PDF

Metode 2

Buka file djvu di evince
Pilih cetak ----> cetak untuk
mengubah file .ps ke .pdf dan klik cetak

Metode 3

  1. Manajer Paket Synaptic Goto
  2. Memasang

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Goto terminal dan tulis

     sudo apt-get install libtiff-tools
    
  4. Masuk direktori tempat file djvu hadir. Klik tombol kanan mouse. Pilihan "Buka Terminal". Klik itu. Terminal akan terbuka.

  5. Di terminal itu tulis

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Metode 4

Ada juga konverter online DjVu ke PDF converter


@ Ashu Apakah Anda yakin ini mengambil gambar?
hayd

Ya metode 1 dan 2 berhasil untuk saya. tidak mencoba untuk 3 dan 0,4
Ashu

@ Ashu apakah itu mengekstraksi gambar atau hanya menyalin seluruh halaman? (apakah itu masuk akal?)
hayd

Apakah Anda mencoba metode apa pun? coba dan lihat apakah itu berhasil
Ashu

2
Tidak (mengambil gambar atau teks).
hayd

17

Berikut ini satu cara, yang akan membutuhkan beberapa alat yang tidak terlalu umum:

  1. ocrodjvu
  2. pdfbeads , yang memiliki persyaratan sendiri yang dapat ditemukan oleh Google

Kita dapat menggunakan djvu2hocrperintah (dari ocrodjvupaket) untuk mengekstrak lapisan teks tersembunyi dari file DjVu (tidak melakukan OCR atau serupa, hanya mengekstrak lapisan teks dengan geometri), yaitu:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed intervensi mengoreksi nama kelas dalam output hOCR (yang hanya file HTML sederhana)

Sekarang kami mengekstrak halaman DjVu ke format TIFF dengan:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

sehingga kita akhiri dengan file ini di folder tidak bekerja:

sample.djvu
pg10.html
pg10.tif

Di sinilah pdfbeadsberperan, dan kami mengeksekusi sederhana:

pdfbeads -o pg10.pdf

kemudian program yang bagus ini menangani semua yang ada di dalam folder ini (file HTML dan TIFF dengan nama dasar yang sama) dan menghasilkan output file PDF dengan beberapa produk sampingan:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

yang identik dengan input file DjVu dan memiliki lapisan teks di dalamnya:

masukkan deskripsi gambar di sini

Ringkasan komentar:

Komentar panjang di bawah ini membahas mewakili gambar yang lebih kecil dari halaman dokumen DjVu sebagai objek yang terpisah, yang tidak mudah dilakukan karena halaman dokumen DjVu sendiri hanyalah gambar tunggal dengan lapisan teks opsional, tanpa "informasi" tentang gambar yang lebih kecil sebagai objek terpisah. Jika dokumen DjVu memiliki gambar berwarna, maka biasanya akan ditempatkan pada lapisan latar belakang; dalam hal ini pengguna dapat mengambil keuntungan dari alat-alat seperti ddjvu(ekstrak hanya lapisan latar belakang) dan imagemagick(potong otomatis) untuk hanya menghasilkan gambar, bukan seluruh kanvas, tetapi tidak dapat otomatis untuk membuat output PDF

Pendekatan lain yang lebih waras, tetapi lebih lambat adalah penggunaan alat GUI OCR biasa. gscan2pdf(> 1.0) disarankan sebagai kandidat yang memungkinkan untuk PC Linux


Apakah saya benar dalam berpikir bahwa ini tidak mengekstraksi data gambar individu, tetapi hanya gambar seluruh halaman?
hayd

Apa yang Anda maksud dengan "data gambar individual" ketika Anda merujuk pada struktur file DjVu?
zetah

apakah itu dapat memotong gambar dari dokumen sebagai gambar yang lebih kecil ditempatkan di atas PDF (misalnya agar mereka dapat mengekspor ke HTML)
hayd

Tidak ada definisi seperti itu dalam struktur file DjVu. Contoh di atas gambar dalam dokumen DjVu asli "ditempatkan" pada lapisan latar depan / topeng bersama-sama dengan gambar karakter dan ada lapisan teks terpisah yang diekstraksi seperti yang dijelaskan. Jika dokumen DjVu memiliki gambar berwarna, mereka akan ditempatkan pada lapisan latar belakang di seluruh halaman (dalam file DjVu gabungan umum). Meskipun dapat dimengerti bahwa Anda dapat berharap bahwa gambar dalam halaman dokumen DjVu adalah objek yang terpisah, bukan - lihat halaman dokumen DjVU sebagai gambar tunggal dengan lapisan teks opsional, pada dasarnya apa itu.
zetah

1
@zetah - informasi tambahan yang Anda berikan di komentar harus benar-benar ditambahkan ke jawaban karena memberikan informasi berharga tentang penempatan gambar dalam struktur dan apa yang Anda harapkan saat mengekstraksi.
fossfreedom

4

Ada djvu2pdf tetapi bergantung pada ghostscript sehingga mungkin menjadi opsi pencetakan lain. Saya masih menyarankan Anda melihatnya, kalau-kalau itu lebih pintar daripada saya memberikannya kredit.

Itu tidak ada dalam repo tetapi Anda dapat mengunduh deb dari situs pembuatnya: http://0x2a.at/s/projects/djvu2pdf

** Masukkan pemberitahuan wajib tentang mengunduh / menginstal hal-hal dari luar repo di sini **


1
Saya khawatir djvu2pdf menggunakan ddjvu untuk mengekspor ke PDF, yang mengekspor gambar tanpa teks.
hayd

4

Menggunakan DJVULibre , seseorang dapat mengekstraksi layer teks melalui terminalperintah:

djvutxt myfile.djvu > myfile-ocr.txt atau djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(Keduanya melakukan hal yang sama, dan ditemukan di sini )

Memformat memerlukan upaya (karena banyak simbol tidak dikonversi dengan benar) dan gambar tidak dipulihkan .


Ini bagus untuk mengonversi buku tanpa gambar dalam format DJVU, tetapi tidak untuk dokumen dengan gambar. Ini adalah solusi saat ini untuk saya saat ini, dan satu-satunya untuk mengekstrak teks. Cara untuk melestarikan pemformatan dan gambar akan lebih disukai!
hayd


0

Cara termudah: gunakan gscan2pdf untuk mengimpor djvu, lalu OCR dengan tesseract, dan akhirnya simpan sebagai pdf. Teks OCR dalam pdf mungkin sedikit berbeda dari djvu asli, dan konversi mungkin memakan waktu cukup lama, tetapi metode ini adalah no-brainer dan berfungsi.


1
Hai, untuk menjadikan ini anwer yang lebih bermanfaat, bisa Anda berikan sedikit lebih detail tentang di mana mendapatkan dan menggunakan gscan2pdf dan tesseract.
NGRhodes

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.