Ekstrak semua teks yang disorot dari PDF ke sel Excel terpisah


1

Saya membuat banyak spreadsheet di Excel. Pada dasarnya terdiri dari berbagai kolom. Masalahnya adalah bahwa salah satu kolom ini berisi banyak teks (senilai seluruh paragraf). Teks yang dimasukkan ke dalam kolom ini berasal dari file PDF raksasa (file PDF ini mengandung banyak hal lain yang tidak saya butuhkan).

Sejauh ini yang saya lakukan adalah menyalin dan menempel secara manual hal-hal yang saya butuhkan dari PDF ke excel

Salin »Klik dua kali pada sel» tempel

Ini menyebabkan teks kehilangan format dan ketika saya menempelkan paragraf ke sel tertentu, saya mendapatkan banyak ruang kosong yang harus saya hapus secara manual.

Klik pada sel »Backspace kosong kosong sampai paragraf jatuh ke dalam garis tunggal di bilah rumus» Bungkus teks untuk kerapian

Solusi saya untuk ini adalah

  1. Salin beberapa paragraf ke tabel MS Word
  2. Gabungkan baris hingga setiap paragraf jatuh ke baris tunggal
  3. Perbaiki pemformatan dengan menghapus jeda paragraf dan menggantinya dengan spasi dengan metode temukan / ganti diikuti oleh
  4. Rekatkan itu ke excel

Sekarang spreadsheet saya ini bisa menjadi agak besar dan penyalinan salinan konstan ini berubah menjadi sangat menyakitkan. Apakah ada cara yang lebih mudah untuk melakukannya?

Apa yang saya inginkan adalah bahwa setiap paragraf dari PDF harus jatuh ke dalam sel Excel tunggal, tanpa spasi kosong yang mengganggu.

Saya berpikir untuk hanya menyoroti bagian yang saya butuhkan dari PDF dan entah bagaimana mengekstraksi dari PDF ke dalam kolom Excel. Entah bagaimana secara ajaib memasukkan setiap paragraf ke dalam sel yang berbeda di kolom tunggal tanpa satu ton ruang kosong.

(Atau)

Memasukkan seluruh PDF ke excel (lagi-lagi entah bagaimana secara ajaib memasukkan setiap paragraf ke dalam sel yang berbeda dalam kolom tunggal tanpa satu ton spasi kosong) dan saya hanya dapat menghapus paragraf / hal-hal yang tidak saya butuhkan.

Saya tahu saya tidak akan mendapatkan solusi yang sempurna, tetapi metode apa pun yang menghemat waktu saya akan sangat bagus!

Pekerjaan yang saya lakukan ini untuk sekolah dan tidak ada jalan lain untuk mengatasi hal ini.

Jawaban:


0

Jawaban singkat: tidak.

Jawaban panjang: Tergantung pada sifat PDF. Berlawanan dengan apa yang ingin Anda percayai Adobe, spesifikasi PDF adalah kekacauan spaghetti 900 halaman dengan banyak hal yang tergantung pada bagaimana PDF itu dibuat dan bagaimana itu dibaca.

Jika PDF yang dimaksud memiliki lapisan teks tertanam dalam beberapa format yang bermanfaat, seperti XML, Anda dapat mengekstraksi lapisan itu saja dan menggunakan XMLuntuk memetakan "paragraf" ke sel Excel yang berbeda. Spesifikasinya bergantung sepenuhnya pada bagaimana file PDF dibuat, seperti apa lapisan yang potensial itu terlihat, dan keterampilan pengkodean Anda.

Jika Anda memutuskan ingin mencoba mengekstrak lapisan PDF, lihat utas ini untuk mengetahui apa yang terlibat.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.