Grep di Microsoft Word?


10

Grep di Microsoft Word?

Saya ingin menarik semua garis dengan string yang diberikan dari dokumen kata. Di dunia unix ... grep melakukan ini tanpa kesalahan. Windows kurang jelas bagi saya.

Jawaban:


10

Dengan Cygwin (atau akses ke mesin Linux) Anda bisa

antiword file.doc | grep "my phrase"

atau

catdoc file.doc | grep "my phrase"

Ada banyak konverter format file baris perintah di luar sana untuk menangkap dengan cara yang sama.

Solusi murni di-Word bisa dengan Ctrl + F (Temukan), dan kemudian Temukan Semua - namun, saya tidak yakin apakah semua versi MS Word memiliki tombol Temukan Semua .


2
Ketika saya melihat judul pertanyaan saya berpikir "Ha! Itu akan menyenangkan, bukan" Tidak pernah lagi saya harus meremehkan programmer GNU.
Phoshi

Versi terbaru dari catdocsegfault pada setiap .doc/ .docxfile yang saya berikan, dan antiwordhanya memberi tahu saya dokumen saya "bukan Dokumen Word". Apakah Anda tahu ada opsi lain?
detly

Tidak ada yang saya gunakan ... Pencarian cepat menunjukkan yang docx2txtada di repositori Debian - mungkin berfungsi. Saya juga akan melihat utilitas konversi format perintah OpenOffice / LibreOffice (unoconv), yang dapat digunakan untuk tujuan yang sama.
chronos

3

Saya tahu ini terdengar primitif, tetapi apa yang menghentikan Anda menyimpan file sebagai .txt dan kemudian merobeknya sesuai keinginan Anda.


2
Memiliki ratusan dari mereka untuk melakukannya, adalah untuk apa.
tchrist

1

Apa yang dimaksud "garis" dalam konteks kata? Baris yang ditampilkan, yang berubah jika Anda melakukan sesuatu pada pemformatan halaman? Paragraf? Sesuatu yang lain

Anda dapat melakukan banyak hal dengan fungsi temukan dan ganti Word, termasuk mengubah pemformatan dan hal-hal yang tidak jelas lainnya, tetapi semuanya hanya akan bertindak berdasarkan teks yang ditemukan sendiri, bukan pada teks di sekitarnya.


grep punya regex yang sayang!
Phoshi

1

Ada dukungan untuk dokumen MS - Word, PowerPoint, Excel - di CRGREP yang saya kembangkan sebagai alat opensource gratis. Ini juga menangkap hal-hal sulit lainnya untuk mencari seperti tabel database, gambar, audio, arsip, PDF, dan kombinasi dari semuanya. Selamat bersenang-senang.



0

Tidak punya cukup perwakilan untuk berkomentar, tetapi saya bisa melihat masalah doc vs docx ini dibahas sehingga siapa pun yang mengejar utas (seperti saya) mungkin merasa ini membantu.

Anda tidak memerlukan alat khusus untuk file docx. docx adalah file XML zip.

Untuk mengekstrak dan menghapus XML, coba sesuatu berdasarkan

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

dari fu baris perintah


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.