Saya baru-baru ini belajar Python dan sedang mencelupkan tangan saya ke dalam membangun web-scraper. Tidak ada yang mewah sama sekali; satu-satunya tujuan adalah untuk mendapatkan data dari situs web taruhan dan meminta data ini dimasukkan ke dalam Excel.
Sebagian besar masalah dapat dipecahkan dan saya mengalami sedikit kekacauan. Namun saya memukul rintangan besar atas satu masalah. Jika sebuah situs memuat tabel kuda dan mencantumkan harga taruhan saat ini, informasi ini tidak ada dalam file sumber apa pun. Petunjuknya adalah bahwa data ini kadang-kadang hidup, dengan angka yang diperbarui jelas dari beberapa server jarak jauh. HTML di PC saya hanya memiliki lubang di mana server mereka mendorong melalui semua data menarik yang saya butuhkan.
Sekarang pengalaman saya dengan konten web dinamis rendah, jadi hal ini adalah sesuatu yang saya mengalami kesulitan dalam menggerakkan kepala.
Saya pikir Java atau Javascript adalah kunci, ini sering muncul.
Scraper hanyalah sebuah mesin pembanding peluang. Beberapa situs memiliki API tetapi saya membutuhkan ini untuk mereka yang tidak. Saya menggunakan perpustakaan kotor dengan Python 2.7
Saya minta maaf jika pertanyaan ini terlalu terbuka. Singkatnya, pertanyaan saya adalah: bagaimana goresan dapat digunakan untuk mengikis data dinamis ini sehingga saya dapat menggunakannya? Sehingga saya dapat mengikis data peluang taruhan ini secara waktu nyata?
Firefox
ekstensi seperti httpFox
atau liveHttpHeaders
dan muat halaman yang menggunakan permintaan ajax. Scrapy tidak secara otomatis mengidentifikasi permintaan ajax, Anda harus mencari secara manual URL ajax yang sesuai dan kemudian melakukan permintaan dengan itu.