Saya perlu mengganti semua karakter non-ASCII (\ x00- \ x7F) dengan spasi. Saya terkejut bahwa ini tidak mudah mati di Python, kecuali saya kehilangan sesuatu. Fungsi berikut hanya menghapus semua karakter non-ASCII:
def remove_non_ascii_1(text):
return ''.join(i for i in text if ord(i)<128)
Dan yang ini menggantikan karakter non-ASCII dengan jumlah spasi sesuai jumlah byte pada titik kode karakter (yaitu –
karakter diganti dengan 3 spasi):
def remove_non_ascii_2(text):
return re.sub(r'[^\x00-\x7F]',' ', text)
Bagaimana saya bisa mengganti semua karakter non-ASCII dengan satu spasi?
Dari yang segudang dari sejenis SO pertanyaan , tidak ada alamat karakter pengganti sebagai lawan untuk pengupasan , dan juga mengatasi semua karakter non-ascii bukan karakter tertentu.
–
. Ini orangnya .