Saya sedang mencari cara untuk mengkonversi folder yang penuh dengan file HTML ke teks biasa. Yang saya inginkan adalah sebanyak mungkin file teks seperti apa yang akan saya dapatkan jika saya memilih semua teks dalam browser web, menyalinnya, dan menempelkan teks ke file teks biasa.
TIDAK, BENAR-BENAR, SAYA INGIN TEKSTIL PLAIN YANG TIDAK DIUBAH. Semua solusi yang saya temukan menghasilkan penurunan harga atau sesuatu yang terlihat seperti itu, atau mencoba untuk melestarikan tata letak, atau menggunakan tanda bintang dan garis bawah untuk menunjukkan format teks, atau mempertahankan konten skrip dalam file output, atau sesuatu yang pintar. .
Yang saya inginkan adalah kata-kata yang ditulis oleh penulis dalam urutan yang ditulis penulisnya. Saya bahkan tidak peduli jika pemrosesan mengubah semua item daftar dalam daftar menjadi satu paragraf, atau bahkan meruntuhkan seluruh dokumen menjadi satu paragraf. Semua ini jauh lebih baik daripada memberi saya apa pun selain bahasa aktual yang terkandung dalam dokumen.
Saya suka aplikasi terminal atau skrip Python, tapi saya akan mengambil apa pun yang bisa saya dapatkan.
<
dan>
. Saya tidak tahused
, tapi saya cukup yakin bisa melakukannya.