Kemungkinan, masalah Anda adalah Anda menguraikannya dengan baik, dan sekarang Anda mencoba mencetak konten XML dan Anda tidak bisa melakukannya karena ada beberapa karakter Unicode asing. Coba encode string unicode Anda sebagai ascii terlebih dahulu:
unicodeData.encode('ascii', 'ignore')
bagian 'abaikan' akan memberitahunya untuk melewati karakter tersebut. Dari dokumen python:
>>> u = unichr(40960) + u'abcd' + unichr(1972)
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
'abcd'
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'ꀀabcd޴'
Anda mungkin ingin membaca artikel ini: http://www.joelonsoftware.com/articles/Unicode.html , yang menurut saya sangat berguna sebagai tutorial dasar tentang apa yang terjadi. Setelah membaca, Anda akan berhenti merasa seperti Anda hanya menebak-nebak perintah apa yang harus digunakan (atau setidaknya yang terjadi pada saya).
unicode()
?