Saya perlu menyalin situs melalui HTTP. Saya perlu mengunduh gambar, HTML, CSS, dan JavaScript serta mengaturnya dalam sistem file.
Adakah yang tahu bagaimana melakukan ini?
Saya perlu menyalin situs melalui HTTP. Saya perlu mengunduh gambar, HTML, CSS, dan JavaScript serta mengaturnya dalam sistem file.
Adakah yang tahu bagaimana melakukan ini?
Jawaban:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
Ini berjalan di konsol.
ini akan mengambil situs, menunggu 3 detik di antara permintaan, membatasi seberapa cepat unduhannya sehingga tidak membunuh situs, dan menutupi dirinya dengan cara yang membuatnya tampak seperti browser sehingga situs tidak memotong Anda menggunakan mekanisme anti-lintah.
Perhatikan -A
parameter yang menunjukkan daftar jenis file yang ingin Anda unduh.
Anda juga dapat menggunakan tag lain, -D domain1.com,domain2.com
untuk menunjukkan serangkaian domain yang ingin Anda unduh jika memiliki server lain atau apa pun untuk hosting berbagai jenis file. Tidak ada cara aman untuk mengotomatisasi itu untuk semua kasus, jika Anda tidak mendapatkan file.
wget
umumnya diinstal sebelumnya di Linux, tetapi dapat dengan mudah dikompilasi untuk sistem Unix lain atau diunduh dengan mudah untuk Windows: GNUwin32 WGET
Gunakan ini untuk kebaikan dan bukan kejahatan.
Bagus, Solusi Gratis: HTTrack
HTTrack adalah utilitas browser offline gratis (GPL, libre / gratis) dan mudah digunakan.
Ini memungkinkan Anda untuk mengunduh situs World Wide Web dari Internet ke direktori lokal, membangun semua direktori secara rekursif, mendapatkan HTML, gambar, dan file lain dari server ke komputer Anda. HTTrack mengatur struktur tautan relatif situs asli. Cukup buka halaman situs web "mirrored" di browser Anda, dan Anda dapat menelusuri situs dari tautan ke tautan, seolah-olah Anda melihatnya secara online. HTTrack juga dapat memperbarui situs cermin yang ada, dan melanjutkan unduhan yang terputus. HTTrack sepenuhnya dapat dikonfigurasi, dan memiliki sistem bantuan terintegrasi.
Pada sistem Linux, 'wget' melakukan ini, cukup banyak.
Itu juga telah porting ke beberapa platform lain, seperti beberapa jawaban lainnya menyebutkan.
Jelas WGet telah disebutkan beberapa kali. UI terbaik yang saya temukan untuk itu adalah
Ada beberapa UI lain untuk WGet di luar, beberapa di antaranya adalah kandidat untuk pertanyaan ui terburuk
Anda perlu menggunakan wget - yang tersedia untuk sebagian besar platform. curl tidak akan meminta dokumen secara rekursif, yang merupakan salah satu kekuatan utama wget.
Linux: (biasanya termasuk dalam distro) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
TOLONG pastikan Anda tidak memalu situs web - mengatur penundaan yang sesuai antara permintaan, dan pastikan itu dalam persyaratan layanan situs.
-Adam
Sebenarnya, menindaklanjuti komentar saya di posting GWLlosa, saya baru ingat saya sudah menginstal GnuWin32, dan tentu saja itu berisi port Windows dari wget.
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
Saya menggunakan ini beberapa tahun yang lalu dan itu bekerja dengan baik. Hanya untuk Windows. Dulu adware tetapi tidak lagi, tampaknya:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: parameter memberitahu wget untuk memasukkan semua file, termasuk gambar.-e robots=off
: abaikan aturan situs robots.txt-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: string agen pengguna--random-wait
: hindari masuk daftar hitam--limit-rate=20k
: membatasi laju pengunduhan file.-b
: lanjutkan wget setelah keluar.
-c
(atau --continue
) opsi ketika ada masalah dan saya harus memulai kembali proses.
Saya pikir situs IDM grabber adalah solusi terbaik, ada juga Teleport pro
Free Download Manager dapat mengunduh situs web lengkap juga.
Hanya Windows saya pikir.