Kami sedang membuat situs mashup yang menarik informasi dari banyak sumber di seluruh web. Banyak dari situs-situs ini tidak menyediakan umpan RSS atau API untuk mengakses informasi yang mereka berikan. Ini meninggalkan kita dengan pengikisan layar sebagai metode kami untuk mengumpulkan data.
Ada banyak alat skrip di luar sana yang ditulis dalam berbagai bahasa skrip untuk skrap layar yang mengharuskan Anda untuk menulis skrip skrip dalam bahasa yang digunakan oleh scraper. Scrapy, scrAPI, dan scrubyt adalah beberapa tulisan dalam Ruby dan Python.
Ada alat berbasis web lain yang pernah saya lihat seperti Dapper yang membuat umpan XML atau RSS berdasarkan halaman web. Ini memiliki antarmuka berbasis web yang indah yang tidak memerlukan keterampilan scripting untuk digunakan. Ini akan menjadi alat yang hebat, jika bisa melintasi beberapa halaman untuk mengumpulkan data dari ratusan halaman hasil.
Kami membutuhkan sesuatu yang akan mengikis informasi dari situs web paginasi, seperti scrubyt, tetapi dengan antarmuka pengguna yang dapat digunakan oleh non-programmer. Kami akan membuat skrip solusi kami sendiri jika perlu, mungkin menggunakan scrubyt, tetapi jika ada solusi yang lebih baik di luar sana, kami ingin menggunakannya. Apakah ada yang seperti ini?