Pertanyaan yang diberi tag «scraping»

2
Cara (waktu, biaya) paling efisien untuk mengikis 5 juta halaman web?
Saya memiliki daftar halaman web yang perlu saya gesek, parsing dan kemudian menyimpan data yang dihasilkan dalam database. Totalnya sekitar 5.000.000. Asumsi saya saat ini tentang cara terbaik untuk mendekati ini adalah dengan menyebarkan ~ 100 instance EC2, berikan setiap instance dengan 50.000 halaman untuk dikikis dan kemudian biarkan dijalankan, …

7
Bagaimana cara menghindari tergores?
Kami memiliki Database yang dapat ditelusuri (DB), kami membatasi hasilnya hingga 15 per halaman dan hanya 100 hasil yang masih membuat orang mencoba untuk mengikis situs. Kami melarang situs yang menabraknya dengan cukup cepat. Saya bertanya-tanya apakah ada hal lain yang bisa kita lakukan. Flash membuat hasilnya mungkin?
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.