Unduh SEMUA Folder, Subfolder, dan File menggunakan Wget


20

Saya telah menggunakan Wget, dan saya mengalami masalah. Saya punya situs, yang memiliki beberapa folder dan subfolder di dalam situs. Saya perlu mengunduh semua konten di dalam setiap folder dan subfolder. Saya telah mencoba beberapa metode menggunakan Wget, dan ketika saya memeriksa penyelesaiannya, yang bisa saya lihat di folder adalah file "indeks". Saya dapat mengklik pada file indeks, dan itu akan membawa saya ke file, tetapi saya perlu file yang sebenarnya.

apakah ada yang punya perintah untuk Wget yang saya abaikan, atau ada program lain yang bisa saya gunakan untuk mendapatkan semua informasi ini?

contoh situs:

www.mysite.com/Gambar/ dalam Pictures DIr, ada beberapa folder .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

Saya membutuhkan semua file, folder, dll .....


1
Sudahkah Anda membaca dokumentasi untuk wget, khususnya untuk menggunakannya secara rekursif ?
Musa

Ada juga artikel dalam dokumentasi di sini yang tampaknya relevan.
Musa

Jawaban:


37

Saya ingin menganggap Anda belum mencoba ini:

wget -r --no-parent http://www.mysite.com/Pictures/

atau untuk mengambil konten, tanpa mengunduh file "index.html":

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

Referensi: Menggunakan wget untuk secara rekursif mengambil direktori dengan file sewenang-wenang di dalamnya


1
Terima kasih, saya telah menjalankan perintah itu beberapa kali, tetapi saya tidak membiarkan perintahnya selesai sampai akhir. Saya mendapatkan sisi yang dilacak, dan membiarkan perintah benar-benar selesai, dan itu menyalin SEMUA Folder Pertama, kemudian kembali dan menyalin SEMUA file ke dalam folder.
Horrid Henry

hanya menunjukkan kepada Anda, jika saya memiliki kesabaran, saya akan melakukan ini 2 minggu yang lalu .... LOL. :) Terima kasih lagi.
Horrid Henry

@Horrid Henry, Selamat!
Felix Imafidon

Saya menggunakan perintah yang sama tetapi hanya mendapatkan file index.html!
shenkwen

20

saya menggunakan wget -rkpN -e robots=off http://www.example.com/

-r artinya secara rekursif

-kberarti mengonversi tautan. Jadi tautan pada halaman web akan menjadi localhost alih-alih example.com/bla

-p berarti dapatkan semua sumber daya halaman web sehingga dapatkan gambar dan file javascript untuk membuat situs web berfungsi dengan baik.

-N adalah untuk mengambil cap waktu jadi jika file lokal lebih baru dari file di situs web jarak jauh lewati saja.

-eadalah opsi bendera yang harus ada di sana agar robots=offdapat berfungsi.

robots=off berarti mengabaikan file robot.

Saya juga sudah -cdalam perintah ini jadi jika koneksi mereka putus jika akan melanjutkan dari mana ia tinggalkan ketika saya menjalankan kembali perintah. Saya pikir -Nakan cocok dengan-c


Bisakah Anda menambahkan beberapa kalimat pada jawaban Anda untuk menjelaskan apa yang dilakukan pengaturan parameter ini?
fixer1234

Maaf. yakin sakit tambahkan mereka sekarang
Tim Jonas

Saya telah memperbarui jawaban saya
Tim Jonas

Terima kasih. Jadi haruskah -c menjadi bagian dari contoh perintah Anda atau ditambahkan secara opsional setelah unduhan yang tidak lengkap? Juga, -e adalah agar perintah didahulukan dari yang mungkin ada di .wgetrc? Dan apakah itu salah ketik untuk -r (rekursif vs tertutup)?
fixer1234

Ya itu benar. Ya -eakan menjalankan perintah seolah-olah itu adalah bagian dari .wgetrc saya menambahkannya di sana karena robots=offtampaknya tidak berfungsi tanpa itu di sana.
Tim Jonas

1

wget -m -A * -pk -e robot = tidak aktif www.mysite.com/ ini akan mengunduh semua jenis file secara lokal dan mengarahkannya dari file html
dan itu akan mengabaikan file robot

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.