Saat ini saya menggunakan Beautiful Soup untuk mem-parsing file HTML dan menelepon get_text()
, tetapi sepertinya saya dibiarkan dengan banyak \ xa0 Unicode yang mewakili spasi. Apakah ada cara yang efisien untuk menghapus semuanya di Python 2.7, dan mengubahnya menjadi spasi? Saya kira pertanyaan yang lebih umum, apakah ada cara untuk menghapus pemformatan Unicode?
Saya mencoba menggunakan line = line.replace(u'\xa0',' ')
:, seperti yang disarankan oleh utas lain, tetapi itu mengubah \ xa0 menjadi milik Anda, jadi sekarang saya memiliki "kamu" di mana-mana. ):
EDIT: Masalahnya tampaknya diselesaikan dengan str.replace(u'\xa0', ' ').encode('utf-8')
, tetapi hanya melakukan .encode('utf-8')
tanpa replace()
tampaknya menyebabkannya meludah bahkan lebih aneh karakter, \ xc2 misalnya. Adakah yang bisa menjelaskan ini?
u''
s bukan ''
s. :-)
u' '
penggantinya, bukan ' '
. Apakah string asli satu unicode?