Pertanyaan yang diberi tag «html-content-extraction»


30
Mengekstraksi teks dari file HTML menggunakan Python
Saya ingin mengekstrak teks dari file HTML menggunakan Python. Saya ingin pada dasarnya output yang sama saya akan dapatkan jika saya menyalin teks dari browser dan menempelkannya ke notepad. Saya ingin sesuatu yang lebih kuat daripada menggunakan ekspresi reguler yang mungkin gagal pada HTML yang dibentuk dengan buruk. Saya telah …

8
Ekstrak bagian dari pencocokan regex
Saya ingin ekspresi reguler mengekstrak judul dari halaman HTML. Saat ini saya memiliki ini: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Apakah ada ekspresi reguler untuk mengekstrak hanya konten <title> jadi saya tidak perlu menghapus tag?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.