Pertanyaan yang diberi tag «web-scraping»

Scraping web adalah proses mengekstraksi informasi tertentu dari situs web yang tidak menyediakan API atau metode pengambilan data otomatis lainnya. Pertanyaan tentang "Bagaimana Memulai Dengan Scraping" (misalnya dengan Excel VBA) harus * diteliti secara menyeluruh * karena banyak contoh kode fungsional tersedia. Metode scraping web mencakup aplikasi pihak ketiga, pengembangan perangkat lunak khusus, atau bahkan pengumpulan data manual dengan cara standar.


16
Bagaimana menemukan elemen berdasarkan kelas
Saya mengalami masalah dalam menguraikan elemen HTML dengan atribut "class" menggunakan Beautifulsoup. Kode terlihat seperti ini soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Saya mendapatkan kesalahan pada baris yang sama "setelah" skrip selesai. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] …

3
Browser Tanpa Kepala dan pengikisan - solusi [ditutup]
Tutup. Pertanyaan ini tidak memenuhi pedoman Stack Overflow . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Stack Overflow. Ditutup 5 tahun yang lalu . Perbaiki pertanyaan ini Saya mencoba memasukkan daftar kemungkinan solusi untuk setelan pengujian otomatis peramban dan platform peramban tanpa …


3
Parser HTML mana yang terbaik? [Tutup]
Seperti yang ada saat ini, pertanyaan ini tidak cocok untuk format Tanya Jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini dapat diperbaiki dan mungkin dibuka kembali, kunjungi pusat bantuan …

13
Bagaimana cara memilih nilai menu drop-down dengan Selenium menggunakan Python?
Saya perlu memilih elemen dari menu drop-down . Sebagai contoh: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Pertama saya harus mengkliknya. Saya melakukan ini: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Setelah itu saya harus memilih elemen yang baik, katakan saja Mango. Saya mencoba melakukannya dengan …

14
Halaman JavaScript pengikis web dengan Python
Saya mencoba mengembangkan pengikis web sederhana. Saya ingin mengekstraksi teks tanpa kode HTML. Sebenarnya, saya mencapai tujuan ini, tetapi saya telah melihat bahwa di beberapa halaman di mana JavaScript dimuat saya tidak mendapatkan hasil yang baik. Misalnya, jika beberapa kode JavaScript menambahkan beberapa teks, saya tidak dapat melihatnya, karena ketika …




7
Puppeteer: berikan variabel dalam .evaluate ()
Saya mencoba untuk memasukkan variabel ke dalam page.evaluate()fungsi Puppeteer , tetapi ketika saya menggunakan contoh yang sangat disederhanakan berikut, variabel evalVartidak terdefinisi. Saya baru mengenal Puppeteer dan tidak dapat menemukan contoh untuk dikembangkan, jadi saya butuh bantuan untuk meneruskan variabel itu ke dalam page.evaluate()fungsi sehingga saya dapat menggunakannya di dalam. …

4
Bagaimana cara menggunakan permintaan Python untuk memalsukan kunjungan browser?
Saya ingin mendapatkan konten dari situs web di bawah ini. Jika saya menggunakan browser seperti Firefox atau Chrome, saya bisa mendapatkan halaman situs web asli yang saya inginkan, tetapi jika saya menggunakan paket permintaan Python (atau wgetperintah) untuk mendapatkannya, halaman tersebut mengembalikan halaman HTML yang sama sekali berbeda. Saya pikir …


8
Bagaimana saya bisa mengikis lebih cepat
Pekerjaan di sini adalah untuk mengikis API situs yang dimulai dari https://xxx.xxx.xxx/xxx/1.jsonke https://xxx.xxx.xxx/xxx/1417749.jsondan menulisnya persis ke mongodb. Untuk itu saya punya kode berikut: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n in range(min, max): …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.