Pada dasarnya, saya ingin merayapi seluruh situs dengan Wget, tetapi saya membutuhkannya untuk TIDAK PERNAH mengunduh aset lain (mis. Citra, CSS, JS, dll.). Saya hanya ingin file HTML.
Pencarian Google sama sekali tidak berguna.
Ini perintah yang sudah saya coba:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Situs kami adalah hybrid flat-PHP dan CMS. Jadi, HTML "file" bisa /path/to/page
, /path/to/page/
, /path/to/page.php
, atau /path/to/page.html
.
Saya bahkan sudah memasukkan -R js,css
tetapi masih mengunduh file, MAKA menolaknya (buang-buang bandwidth, CPU, dan server load sia-sia!).
Length: 558 [text/css]
pada file yang tidak saya inginkan. Jika saya bisa menghentikan permintaan jika header tidak kembali text/html
, saya akan gembira.