Pertanyaan yang diberi tag «web-crawler»

5
Bagaimana cara meminta Google untuk merayapi ulang situs web saya? [Tutup]
Tutup. Pertanyaan ini tidak memenuhi pedoman Stack Overflow . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Stack Overflow. Ditutup 5 tahun yang lalu . Perbaiki pertanyaan ini Apakah ada yang tahu cara untuk meminta Google merayapi ulang situs web? Jika memungkinkan, ini …
227 seo  web-crawler 

2
Mengirim "User-agent" menggunakan perpustakaan Permintaan dengan Python
Saya ingin mengirim nilai untuk "User-agent"saat meminta halaman web menggunakan Permintaan Python. Saya tidak yakin apakah boleh mengirim ini sebagai bagian dari tajuk, seperti dalam kode di bawah ini: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Informasi debug tidak menunjukkan header yang …

4
menjaga rsync dari menghapus file sumber yang belum selesai
Saya memiliki dua mesin, kecepatan dan massa. speed memiliki koneksi internet yang cepat dan menjalankan crawler yang mengunduh banyak file ke disk. Massa memiliki banyak ruang disk. Saya ingin memindahkan file dari kecepatan ke massa setelah selesai mengunduh. Idealnya, saya hanya menjalankan: $ rsync --remove-source-files speed:/var/crawldir . tapi saya khawatir …



11
Menemukan lapisan dan ukuran lapisan untuk setiap gambar Docker
Untuk tujuan penelitian, saya mencoba merayapi registri Docker publik ( https://registry.hub.docker.com/ ) dan mencari tahu 1) berapa banyak lapisan yang dimiliki gambar rata-rata dan 2) ukuran lapisan ini untuk mendapatkan ide distribusi. Namun saya mempelajari API dan perpustakaan umum serta detail di github tetapi saya tidak dapat menemukan metode apa …

2
TypeError: tidak dapat menggunakan pola string pada objek seperti byte di re.findall ()
Saya mencoba mempelajari cara mengambil url dari halaman secara otomatis. Dalam kode berikut saya mencoba mendapatkan judul halaman web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) Dan saya mendapatkan kesalahan tak terduga …

11
Mendeteksi web-crawler 'siluman'
Opsi apa yang tersedia untuk mendeteksi perayap web yang tidak ingin dideteksi? (Saya tahu bahwa teknik pendeteksian daftar akan memungkinkan pemrogram perayap siluman yang cerdas untuk membuat laba-laba yang lebih baik, tetapi menurut saya kami tidak akan pernah dapat memblokir perayap siluman yang cerdas, hanya yang membuat kesalahan.) Saya tidak …
107 web-crawler 



8
Dapatkan daftar URL dari situs [ditutup]
Tutup. Pertanyaan ini tidak memenuhi pedoman Stack Overflow . Saat ini tidak menerima jawaban. Ingin memperbaiki pertanyaan ini? Perbarui pertanyaan agar sesuai dengan topik untuk Stack Overflow. Tutup 4 tahun lalu . Perbaiki pertanyaan ini Saya menerapkan situs pengganti untuk klien tetapi mereka tidak ingin semua halaman lama mereka berakhir …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.