2
Cara (waktu, biaya) paling efisien untuk mengikis 5 juta halaman web?
Saya memiliki daftar halaman web yang perlu saya gesek, parsing dan kemudian menyimpan data yang dihasilkan dalam database. Totalnya sekitar 5.000.000. Asumsi saya saat ini tentang cara terbaik untuk mendekati ini adalah dengan menyebarkan ~ 100 instance EC2, berikan setiap instance dengan 50.000 halaman untuk dikikis dan kemudian biarkan dijalankan, …