Saya mengekspor konten MS Word ke teks biasa untuk digunakan dengan utilitas teks & file. Saya memiliki kendala di mana fitur penomoran baris telah diaktifkan di perangkat lunak MS, dan referensi ke nomor baris dalam hasil akhir harus cocok dengan penomoran itu. Jadi masukkan "garis penomoran":
( Poe, EA )
Jelas bagi Word , penomoran semacam itu tidak memecah garis pada baris baru , itu memecah "garis" setelah margin yang tepat (atau sesuatu). Skrip seperti docx2txt
, sepertinya tidak menerangkan hal ini secara default dan memecah baris pada baris baru. Jadi jika saya gunakan grep -n
dengan penomoran, garis tidak akan cocok dengan fitur nomor baris sumber, seperti diilustrasikan di atas. Tidak jelas dari dokumentasi bagaimana saya perlu mengedit skrip Perl untuk mengonversi file seperti yang saya perlukan dalam kasus ini:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Aku mencoba mengganti \n
untuk \r\n
tapi itu tampaknya tidak bekerja untuk saya. Jadi saya terpaksa mengekspor dokumen langsung dari Word dengan pengaturan berikut (simpan sebagai teks biasa , di v.2013,64pc):
- Unicode (UTF-8)
- Masukkan jeda baris + garis akhir dengan (CR / LF)
- Izinkan penggantian karakter
Dan sekarang memang ketika saya menggunakan itu .txt
file ada pertandingan yang sempurna antara nomor baris dalam fitur sumber penomoran dan grep -n
output.
- Apakah ada konfigurasi / proses spesifik yang harus saya ketahui
docx2txt
atau utilitas baris perintah serupa yang akan memungkinkan saya untuk mengkonversi file .docx saya menjadi teks biasa sambil mempertahankan jeda baris, tanpa menggunakan Word seperti yang saya lakukan? - Apa praktik terbaik , jika ada, untuk mengekspor dokumen MS Word (yang mungkin berisi karakter beraksen) ke teks biasa untuk digunakan dengan utilitas file / teks, sehubungan dengan jeda baris dan pemformatan; dan apakah ada implikasi negatif dengan pengaturan yang saya pilih untuk mengekspor yaitu memasukkan CR / LF?
Sampel
Seperti yang disarankan, saya memberikan sampel. Dalam arsip rar ini , saya bundel file .docx dengan paragraf sederhana, dan file .txt yang diekspor menggunakan Word dengan opsi yang disebutkan di atas. Yang terakhir dapat dibandingkan dengan menjalankan default docx2txt
pada file sumber.