Baru-baru ini saya telah belajar bahwa menggunakan regex untuk mem-parsing HTML situs web untuk mendapatkan data yang Anda butuhkan bukanlah tindakan terbaik.
Jadi pertanyaan saya sederhana: Lalu, apakah cara terbaik / paling efisien dan umumnya stabil untuk mendapatkan data ini?
Saya harus mencatat bahwa:
- Tidak ada API
- Tidak ada sumber lain di mana saya bisa mendapatkan data (tidak ada database, feed, dan semacamnya)
- Tidak ada akses ke file sumber. (Data dari situs web publik)
- Katakanlah data adalah teks normal, ditampilkan dalam tabel di halaman html
Saat ini saya menggunakan python untuk proyek saya tetapi solusi / tips yang independen bahasa akan menyenangkan.
Sebagai pertanyaan sampingan: Bagaimana Anda melakukannya ketika halaman web dibangun oleh panggilan Ajax?
EDIT:
Dalam hal penguraian HTML, saya tahu bahwa sebenarnya tidak ada cara stabil untuk mendapatkan data. Segera setelah halaman berubah, parser Anda selesai. Yang saya maksud dengan stabil dalam hal ini adalah: cara yang efisien untuk mengurai halaman, yang selalu memberi saya hasil yang sama (untuk set data yang sama jelas) asalkan halaman tidak berubah.