Pertanyaan yang diberi tag «web-crawler»

5
Konversikan halaman web menjadi satu file untuk ebook
Saya ingin mengunduh HTML (contoh: http://www.brpreiss.com/books/opus6/ ) dan bergabung dengan satu HTML atau format lain yang dapat saya gunakan pada pembaca ebook. Situs dengan buku gratis tidak memiliki paging standar, itu bukan blog atau forum, jadi tidak tahu bagaimana melakukan perayapan dan penggabungan otomatis.



4
Menggunakan Wget untuk Merayapi Situs secara Rekursif dan Mengunduh Gambar
Bagaimana Anda menginstruksikan wget untuk merayapi situs web secara rekursif dan hanya mengunduh jenis gambar tertentu? Saya mencoba menggunakan ini untuk menjelajah situs dan hanya mengunduh gambar Jpeg: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Namun, meskipun page1.html berisi ratusan tautan ke subhalaman, yang memiliki tautan langsung ke gambar, …

4
Bagaimana "legal" menggores situs menggunakan CURL? [Tutup]
Seperti yang ada saat ini, pertanyaan ini tidak cocok untuk format Tanya Jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini dapat diperbaiki dan mungkin dibuka kembali, kunjungi pusat bantuan …



1
Kami akan mendapat respons 403
Saya menggunakan API yang memiliki batas permintaan dalam satu jam. Tetapi skrip saya melakukan semuanya sekaligus sehingga saya kehilangan sekitar 1/3 permintaan karena saya mendapatkan 403. Apakah ada cara untuk memeriksa respons wget dan jika saya mendapatkan 403 untuk menunggu 5 menit dan coba lagi? Dan ini kode pengujian saya …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.