Jika Anda tidak menginstal alat-alat lain ini, hanya wget, dan halaman tidak memiliki format hanya teks dan tautan, misalnya kode sumber atau daftar file, Anda dapat menghapus HTML menggunakan sed seperti ini:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Ini menggunakan wget untuk membuang sumber halaman ke STDOUT dan sed untuk menghapus setiap pasangan <> dan apa pun di antara mereka.
Anda kemudian dapat mengarahkan output dari perintah sed ke file yang ingin Anda buat menggunakan>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB: Anda mungkin menemukan bahwa ia memiliki spasi putih tambahan dalam file yang tidak Anda inginkan (misal, baris diberi indentasi beberapa kolom)
Mungkin paling mudah untuk menggunakan editor teks Anda untuk merapikan file itu (atau formatter sumber saat Anda mengunduh kode sumber C).
Jika Anda perlu melakukan hal sederhana yang sama untuk setiap baris file Anda dapat memasukkan perintah untuk melakukan itu di perintah sed (di sini melucuti satu ruang terdepan):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Ini tidak sulit, tetapi tergantung pada struktur halaman. Jika Anda memberikan tautan, mungkin seseorang akan membantu Anda dengan kode yang tepat. Jika tidaksed
atauperl
teman-teman Anda.