Standar unicode memiliki cukup poin kode di dalamnya sehingga Anda memerlukan 4 byte untuk menyimpan semuanya. Itulah yang dilakukan pengkodean UTF-32. Namun pengkodean UTF-8 entah bagaimana meremasnya ke dalam ruang yang jauh lebih kecil dengan menggunakan sesuatu yang disebut "pengkodean lebar-variabel".
Faktanya, ini berhasil mewakili 127 karakter pertama US-ASCII hanya dalam satu byte yang terlihat persis seperti ASCII asli, sehingga Anda dapat menafsirkan banyak teks ascii seolah-olah UTF-8 tanpa melakukan apa pun padanya. Trik rapi. Jadi bagaimana cara kerjanya?
Saya akan bertanya dan menjawab pertanyaan saya sendiri di sini karena saya baru saja membaca sedikit untuk mengetahuinya dan saya pikir ini akan menghemat waktu orang lain. Ditambah mungkin seseorang bisa mengoreksi saya jika saya salah.