UTF-7, UTF-8, UTF-16 dan UTF-32 hanyalah format transformasi algoritmik dari pengkodean (codepoint) karakter yang sama. Mereka adalah pengkodean dari satu sistem kodifikasi karakter.
Mereka juga secara algoritmik lebih mudah dinavigasi maju dan mundur daripada kebanyakan skema sebelumnya untuk berurusan dengan set karakter yang lebih besar dari 256 karakter.
Ini sangat berbeda dari kodifikasi mesin terbang yang umumnya negara dan kadang-kadang khusus vendor. Di Jepang sendiri, ada satu ton variasi JIS saja, belum lagi EUC-JP dan transformasi JIS yang berorientasi codepage yang digunakan mesin DOS / Windows yang disebut Shift-JIS. (Sampai batas tertentu, ada transformasi algoritmik dari ini, tetapi mereka tidak terlalu sederhana dan ada perbedaan vendor-spesifik dalam karakter yang tersedia. Kalikan ini dengan beberapa ratus negara dan evolusi bertahap dari sistem font yang lebih canggih (post greenscreen) era), dan Anda memiliki mimpi buruk yang nyata.
Mengapa Anda memerlukan bentuk transformasi Unicode ini? Karena banyak sistem lama mengasumsikan urutan karakter ASCII-range 7 bit, jadi Anda membutuhkan solusi bersih 7-bit yang aman mengirimkan data tanpa gangguan melalui sistem-sistem tersebut, maka Anda membutuhkan UTF-7. Kemudian ada sistem yang lebih modern yang dapat menangani set karakter 8-bit, tetapi nulls umumnya memiliki arti khusus untuk mereka, sehingga UTF-16 tidak bekerja untuk mereka. 2 byte dapat menyandikan seluruh bidang multibahasa dasar Unicode dalam inkarnasi pertamanya, sehingga UCS-2 tampak seperti pendekatan yang masuk akal untuk sistem yang akan menjadi "Unicode aware from the up up" (seperti Windows NT dan Java VM); maka ekstensi di luar itu mengharuskan karakter tambahan, yang menghasilkan transformasi algoritmik dari pengkodean senilai 21 bit yang dicadangkan oleh standar Unicode, dan pasangan pengganti dilahirkan; yang mengharuskan UTF-16. Jika Anda memiliki beberapa aplikasi di mana konsistensi lebar karakter lebih penting daripada efisiensi penyimpanan, UTF-32 (dulu disebut UCS-4) adalah sebuah pilihan.
UTF-16 adalah satu-satunya hal yang jauh rumit untuk dihadapi, dan itu mudah dimitigasi oleh sejumlah kecil karakter yang dipengaruhi oleh transformasi ini dan fakta bahwa urutan 16-bit memimpin dengan rapi dalam rentang yang benar-benar berbeda dari jejak. Urutan 16-bit. Ini juga dunia yang lebih mudah daripada mencoba untuk bergerak maju dan mundur dalam banyak penyandian Asia Timur awal, di mana Anda membutuhkan mesin negara (JIS dan EUC) untuk menangani urutan pelarian, atau berpotensi untuk memindahkan beberapa karakter hingga Anda menemukan sesuatu yang dijamin. hanya menjadi byte memimpin (Shift-JIS). UTF-16 memiliki beberapa keunggulan pada sistem yang dapat memotong urutan 16-bit secara efisien juga.
Kecuali Anda harus menjalani puluhan (ratusan, benar-benar) dari berbagai pengkodean di luar sana, atau harus membangun sistem yang mendukung banyak bahasa dalam pengkodean yang berbeda kadang-kadang bahkan dalam dokumen yang sama (seperti WorldScript dalam versi MacO yang lebih lama), Anda mungkin berpikir format transformasi unicode sebagai kompleksitas yang tidak perlu. Tapi ini adalah pengurangan dramatis dalam kompleksitas dibandingkan alternatif sebelumnya, dan masing-masing format memecahkan kendala teknis nyata. Mereka juga sangat efisien konversi antara satu sama lain, tidak memerlukan tabel pencarian yang rumit.