Jawaban:
Dengan Cygwin (atau akses ke mesin Linux) Anda bisa
antiword file.doc | grep "my phrase"
atau
catdoc file.doc | grep "my phrase"
Ada banyak konverter format file baris perintah di luar sana untuk menangkap dengan cara yang sama.
Solusi murni di-Word bisa dengan Ctrl + F (Temukan), dan kemudian Temukan Semua - namun, saya tidak yakin apakah semua versi MS Word memiliki tombol Temukan Semua .
catdoc
segfault pada setiap .doc
/ .docx
file yang saya berikan, dan antiword
hanya memberi tahu saya dokumen saya "bukan Dokumen Word". Apakah Anda tahu ada opsi lain?
docx2txt
ada di repositori Debian - mungkin berfungsi. Saya juga akan melihat utilitas konversi format perintah OpenOffice / LibreOffice (unoconv), yang dapat digunakan untuk tujuan yang sama.
Apa yang dimaksud "garis" dalam konteks kata? Baris yang ditampilkan, yang berubah jika Anda melakukan sesuatu pada pemformatan halaman? Paragraf? Sesuatu yang lain
Anda dapat melakukan banyak hal dengan fungsi temukan dan ganti Word, termasuk mengubah pemformatan dan hal-hal yang tidak jelas lainnya, tetapi semuanya hanya akan bertindak berdasarkan teks yang ditemukan sendiri, bukan pada teks di sekitarnya.
Tidak punya cukup perwakilan untuk berkomentar, tetapi saya bisa melihat masalah doc vs docx ini dibahas sehingga siapa pun yang mengejar utas (seperti saya) mungkin merasa ini membantu.
Anda tidak memerlukan alat khusus untuk file docx. docx adalah file XML zip.
Untuk mengekstrak dan menghapus XML, coba sesuatu berdasarkan
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
dari fu baris perintah
Solusi cepat, gratis, sumber terbuka, dan lintas platform: https://github.com/phiresky/ripgrep-all