Saya perlu mendapatkan ribuan potongan teks dari PDF ke spreadsheet. Mereka pendek, jarang lebih dari 2-3 baris, tetapi setiap jeda baris membuat sel baru, dan saya harus memperbaikinya secara manual, yang menghabiskan banyak waktu.
Karena saya memiliki begitu banyak dari mereka, menggunakan solusi "tempelkan ke Word dan temukan-dan-ganti" terlalu menyita waktu bagi saya. Apakah ada cara untuk menghilangkan garis putus pada salinan? Mungkin ada pemirsa yang menawarkan mode salin khusus untuk ini, atau memiliki plugin?
Dokumen-dokumen tersebut adalah artikel ilmiah. Pengaturan teksnya cukup linier. Anda dapat mengasumsikan bahwa teks yang saya salin tidak ada di dalam tabel atau float, dan tidak diputar atau apa pun. (Jika hal seperti itu terjadi, saya pikir saya akan menghadapinya secara manual). Teks sering diatur dalam dua kolom, tetapi saya tidak kesulitan menandai hanya teks yang saya butuhkan dari kolomnya. Saya tidak perlu menyimpan format khusus apa pun. Saya bersedia mencoba solusi yang menghapus semua karakter yang tidak patut dicetak, misalnya. Teksnya dalam bahasa Inggris, tidak apa-apa jika solusinya hanya bekerja di ASCII / menghapus semua ASCII non-alfanumerik dari teks yang disalin.
Saya memiliki preferensi yang sangat kuat untuk solusi yang akan bekerja di Linux, mungkin semacam plugin Okular. Tetapi jika kebetulan ada solusi Windows saja, saya ingin mendengarnya juga. Saya memiliki lisensi untuk Acrobat Pro yang agak baru di mesin Windows.