Dalam Unicode, beberapa kombinasi karakter memiliki lebih dari satu representasi.
Misalnya, karakter ä dapat direpresentasikan sebagai
- "ä", itu adalah codepoint U + 00E4 (dua byte
c3 a4
dalam pengkodean UTF-8), atau sebagai - "ä", itu adalah dua codepoints U + 0061 U + 0308 (tiga byte
61 cc 88
dalam UTF-8).
Menurut standar Unicode, dua representasi itu setara tetapi dalam "bentuk normalisasi" yang berbeda, lihat UAX # 15: Bentuk Normalisasi Unicode .
Kotak alat unix memiliki semua jenis alat transformasi teks, sed , tr , iconv , Perl datang ke pikiran. Bagaimana saya bisa melakukan konversi NF cepat dan mudah pada command-line?
perl -MUnicode::Normalization -e 'print NFC(
... eh apa yang datang ke sini sekarang ...