Mirror blog dengan wget


9

Saya mencoba mirror blog, misalnya www.example.comdengan wget.

Saya menggunakan wget dengan opsi berikut (variabel shell diganti dengan benar):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Blog berisi gambar yang berada di domain lain.

Meskipun saya telah menentukan -popsi (unduh aset halaman tertaut) gambar-gambar ini tidak diunduh kecuali saya menentukan setiap domain secara eksplisit dalam -Dopsi.

Jika saya menghilangkan -Dopsi maka wget akan mengikuti setiap tautan di luar www.example.comdan mengunduh seluruh internet.

Apakah mungkin untuk wgetmengikuti setiap tautan di bawah www.example.comdan mengunduh aset yang diperlukan setiap halaman, apakah itu berada di domain yang sama atau tidak tanpa saya harus menentukan setiap domain secara eksplisit?


Saya juga ingin menemukan jawaban yang bagus untuk yang satu ini. Saya telah mengalami situasi yang sama dan tidak dapat menemukan satu permintaan wget yang melakukannya. Saya akhirnya menggunakan wget -N -E -H -k -K -ppertama, dan muncul dengan skrip untuk mengambil gambar yang ditautkan hilang.
lemonsqueeze

5
Menurut yang ini , httrack adalah pembunuh untuk ini. Saya akan mencobanya nanti, bukan wget.
lemonsqueeze

Dengan asumsi blog Anda (minus aset halaman) tidak mencakup banyak domain, coba hapus keduanya -D $domainsjuga -H. Tanpanya -Hharus tetap dalam domain Anda tetapi masih mengambil aset halaman langsung, bahkan ketika mereka berada di domain yang berbeda.
blubberdiblub

Jawaban:


1

Tidak, satu-satunya cara adalah menentukan domain yang ingin Anda ikuti menggunakan -D atau --domains = [daftar domain] (dalam bentuk daftar yang dipisahkan koma)

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.