Saya ingin mengekstrak teks dari file HTML menggunakan Python. Saya ingin pada dasarnya output yang sama saya akan dapatkan jika saya menyalin teks dari browser dan menempelkannya ke notepad.
Saya ingin sesuatu yang lebih kuat daripada menggunakan ekspresi reguler yang mungkin gagal pada HTML yang dibentuk dengan buruk. Saya telah melihat banyak orang merekomendasikan Beautiful Soup, tetapi saya punya beberapa masalah dalam menggunakannya. Untuk satu, ia mengambil teks yang tidak diinginkan, seperti sumber JavaScript. Juga, itu tidak menafsirkan entitas HTML. Misalnya, saya harapkan & # 39; dalam sumber HTML untuk dikonversi menjadi tanda kutip dalam teks, sama seperti jika saya menempelkan konten browser ke notepad.
Pembaruan html2text
terlihat menjanjikan. Ini menangani entitas HTML dengan benar dan mengabaikan JavaScript. Namun, itu tidak persis menghasilkan teks biasa; itu menghasilkan penurunan harga yang kemudian harus diubah menjadi teks biasa. Muncul tanpa contoh atau dokumentasi, tetapi kode terlihat bersih.
Pertanyaan-pertanyaan Terkait: