Saya ingin mengambil apa pun di antara kedua tag ini - <tr> </tr>- dari dokumen html. Sekarang saya tidak memiliki persyaratan html spesifik yang akan menjamin untuk parser html. Saya hanya butuh sesuatu yang cocok <tr>dan </tr>dan mendapatkan semua di antaranya dan mungkin ada banyak tr. Saya mencoba awk, yang berhasil, tetapi untuk beberapa alasan akhirnya memberi saya duplikat dari setiap baris yang diekstraksi.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Bagaimana caranya?
awkbekerja tetapi memberikan duplikat, cobalah untuk mengeluarkan keluaran awk Anda dari sort -uuntuk membuatnya berbeda
'/<tr/{p=1}; p; /<\/tr>/{p=0}'. Posting beberapa contoh input dan output yang diharapkan jika tidak berhasil.