Saya ingin mengambil apa pun di antara kedua tag ini - <tr> </tr>
- dari dokumen html. Sekarang saya tidak memiliki persyaratan html spesifik yang akan menjamin untuk parser html. Saya hanya butuh sesuatu yang cocok <tr>
dan </tr>
dan mendapatkan semua di antaranya dan mungkin ada banyak tr
. Saya mencoba awk, yang berhasil, tetapi untuk beberapa alasan akhirnya memberi saya duplikat dari setiap baris yang diekstraksi.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Bagaimana caranya?
awk
bekerja tetapi memberikan duplikat, cobalah untuk mengeluarkan keluaran awk Anda dari sort -u
untuk membuatnya berbeda
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Posting beberapa contoh input dan output yang diharapkan jika tidak berhasil.