Saya kode banyak parser. Sampai sekarang, saya menggunakan browser tanpa kepala HtmlUnit untuk penguraian dan otomatisasi browser.
Sekarang, saya ingin memisahkan kedua tugas.
Karena 80% dari pekerjaan saya hanya melibatkan parsing, saya ingin menggunakan parser HTML ringan karena membutuhkan banyak waktu di HtmlUnit untuk memuat halaman pertama, kemudian mendapatkan sumber dan kemudian menguraikannya.
Saya ingin tahu parser HTML mana yang terbaik. Parser akan lebih baik jika dekat dengan Parser HtmlUnit.
EDIT:
Yang terbaik, saya ingin setidaknya fitur-fitur berikut:
- Mempercepat
- Mudah untuk menemukan HtmlElement apa pun dengan "id" atau "nama" atau "tipe tag".
Tidak masalah bagi saya jika tidak membersihkan kode HTML yang kotor. Saya tidak perlu membersihkan sumber HTML apa pun. Saya hanya perlu cara termudah untuk berpindah melintasi HtmlElements dan mengumpulkan data dari mereka.