Pemrograman web-crawler

5

Bagaimana cara meminta Google untuk merayapi ulang situs web saya? [Tutup]

Tutup. Pertanyaan ini tidak memenuhi pedoman Stack Overflow . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Stack Overflow. Ditutup 5 tahun yang lalu . Perbaiki pertanyaan ini Apakah ada yang tahu cara untuk meminta Google merayapi ulang situs web? Jika memungkinkan, ini …

227 seo web-crawler

2

Mengirim "User-agent" menggunakan perpustakaan Permintaan dengan Python

Saya ingin mengirim nilai untuk "User-agent"saat meminta halaman web menggunakan Permintaan Python. Saya tidak yakin apakah boleh mengirim ini sebagai bagian dari tajuk, seperti dalam kode di bawah ini: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Informasi debug tidak menunjukkan header yang …

216 python web-crawler python-requests

4

menjaga rsync dari menghapus file sumber yang belum selesai

Saya memiliki dua mesin, kecepatan dan massa. speed memiliki koneksi internet yang cepat dan menjalankan crawler yang mengunduh banyak file ke disk. Massa memiliki banyak ruang disk. Saya ingin memindahkan file dari kecepatan ke massa setelah selesai mengunduh. Idealnya, saya hanya menjalankan: $ rsync --remove-source-files speed:/var/crawldir . tapi saya khawatir …

169 storage web-crawler rsync

8

Perbedaan antara crawler BeautifulSoup dan Scrapy?

Saya ingin membuat website yang menunjukkan perbandingan harga produk amazon dan e-bay. Manakah dari berikut ini yang akan bekerja lebih baik dan mengapa? Saya agak akrab dengan BeautifulSoup tetapi tidak begitu banyak dengan crawler Scrapy .

139 python beautifulsoup scrapy web-crawler

16

bagaimana cara mendeteksi bot mesin pencari dengan php?

Bagaimana cara mendeteksi bot mesin pencari menggunakan php?

118 php web-crawler bots

11

Menemukan lapisan dan ukuran lapisan untuk setiap gambar Docker

Untuk tujuan penelitian, saya mencoba merayapi registri Docker publik ( https://registry.hub.docker.com/ ) dan mencari tahu 1) berapa banyak lapisan yang dimiliki gambar rata-rata dan 2) ukuran lapisan ini untuk mendapatkan ide distribusi. Namun saya mempelajari API dan perpustakaan umum serta detail di github tetapi saya tidak dapat menemukan metode apa …

112 image docker web-crawler

2

TypeError: tidak dapat menggunakan pola string pada objek seperti byte di re.findall ()

Saya mencoba mempelajari cara mengambil url dari halaman secara otomatis. Dalam kode berikut saya mencoba mendapatkan judul halaman web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) Dan saya mendapatkan kesalahan tak terduga …

108 python python-3.x web-crawler

11

Mendeteksi web-crawler 'siluman'

Opsi apa yang tersedia untuk mendeteksi perayap web yang tidak ingin dideteksi? (Saya tahu bahwa teknik pendeteksian daftar akan memungkinkan pemrogram perayap siluman yang cerdas untuk membuat laba-laba yang lebih baik, tetapi menurut saya kami tidak akan pernah dapat memblokir perayap siluman yang cerdas, hanya yang membuat kesalahan.) Saya tidak …

107 web-crawler

5

Cara melewatkan argumen yang ditentukan pengguna di scrapy spider

Saya mencoba untuk memberikan argumen yang ditentukan pengguna ke laba-laba scrapy. Adakah yang bisa menyarankan bagaimana melakukan itu? Saya membaca tentang suatu parameter di -asuatu tempat tetapi tidak tahu cara menggunakannya.

100 python scrapy web-crawler

5

Bagaimana menemukan semua link / halaman di situs web

Apakah mungkin untuk menemukan semua halaman dan tautan di situs web mana pun? Saya ingin memasukkan URL dan membuat pohon direktori dari semua tautan dari situs itu? Saya telah melihat HTTrack tetapi itu mengunduh seluruh situs dan saya hanya membutuhkan pohon direktori.

100 directory web-crawler

8

Dapatkan daftar URL dari situs [ditutup]

Tutup. Pertanyaan ini tidak memenuhi pedoman Stack Overflow . Saat ini tidak menerima jawaban. Ingin memperbaiki pertanyaan ini? Perbarui pertanyaan agar sesuai dengan topik untuk Stack Overflow. Tutup 4 tahun lalu . Perbaiki pertanyaan ini Saya menerapkan situs pengganti untuk klien tetapi mereka tidak ingin semua halaman lama mereka berakhir …

97 web-crawler

Pertanyaan yang diberi tag «web-crawler»