Saya tahu pertanyaan ini sudah lama dan sudah memiliki jawaban yang diterima, tetapi saya ingin menawarkan beberapa contoh (berharap itu akan bermanfaat bagi seseorang).
Sejauh yang saya tahu karakter ASCII lama mengambil satu byte per karakter.
Baik. Sebenarnya, karena ASCII adalah enkode 7-bit, ia mendukung 128 kode (95 di antaranya dapat dicetak), sehingga hanya menggunakan setengah byte (jika itu masuk akal).
Berapa byte yang diperlukan oleh karakter Unicode?
Unicode hanya memetakan karakter ke codepoint. Itu tidak menentukan cara menyandikannya. File teks tidak mengandung karakter Unicode, tetapi byte / oktet yang mungkin mewakili karakter Unicode.
Saya berasumsi bahwa satu karakter Unicode dapat berisi setiap karakter yang mungkin dari bahasa apa pun - apakah saya benar?
Tidak. Tapi hampir. Jadi pada dasarnya ya. Tapi tetap tidak.
Jadi berapa byte yang dibutuhkan per karakter?
Sama seperti pertanyaan kedua Anda.
Dan apa arti UTF-7, UTF-6, UTF-16 dll? Apakah mereka semacam versi Unicode?
Tidak, itu adalah pengkodean. Mereka menentukan bagaimana byte / oktet harus mewakili karakter Unicode.
Beberapa contoh. Jika beberapa di antaranya tidak dapat ditampilkan di browser Anda (mungkin karena font tidak mendukungnya), buka http://codepoints.net/U+1F6AA
(ganti 1F6AA
dengan codepoint in hex) untuk melihat gambar.
- U + 0061 SURAT KECIL LATIN A:
a
- Nº: 97
- UTF-8: 61
- UTF-16: 00 61
- TANDA HAK CIPTA U + 00A9:
©
- Nº: 169
- UTF-8: C2 A9
- UTF-16: 00 A9
- TANDA REGISTERED U + 00AE:
®
- Nº: 174
- UTF-8: C2 AE
- UTF-16: 00 AE
- U + 1337 PHWA SYLLABLE ETHIOPIC:
ጷ
- Nº: 4919
- UTF-8: E1 8C B7
- UTF-16: 13 37
- U + 2014 EM DASH:
—
- Nº: 8212
- UTF-8: E2 80 94
- UTF-16: 20 14
- U + 2030 TANDA PER Mille:
‰
- Nº: 8240
- UTF-8: E2 80 B0
- UTF-16: 20 30
- TANDA U + 20AC EURO:
€
- Nº: 8364
- UTF-8: E2 82 AC
- UTF-16: 20 AC
- TANDA TANDA PERDAGANGAN U + 2122:
™
- Nº: 8482
- UTF-8: E2 84 A2
- UTF-16: 21 22
- U + 2603 SNOWMAN:
☃
- Nº: 9731
- UTF-8: E2 98 83
- UTF-16: 26 03
- U + 260E TELEPON HITAM:
☎
- Nº: 9742
- UTF-8: E2 98 8E
- UTF-16: 26 0E
- U + 2614 PAYUNG DENGAN DROPS HUJAN:
☔
- Nº: 9748
- UTF-8: E2 98 94
- UTF-16: 26 14
- U + 263A WAJAH SMILING PUTIH:
☺
- Nº: 9786
- UTF-8: E2 98 BA
- UTF-16: 26 3A
- U + 2691 BENDERA HITAM:
⚑
- Nº: 9873
- UTF-8: E2 9A 91
- UTF-16: 26 91
- SIMBOL ATOM U + 269B:
⚛
- Nº: 9883
- UTF-8: E2 9A 9B
- UTF-16: 26 9B
- U + 2708 PESAWAT:
✈
- Nº: 9992
- UTF-8: E2 9C 88
- UTF-16: 27 08
- U + 271E SALING LATIN PUTIH:
✞
- Nº: 10014
- UTF-8: E2 9C 9E
- UTF-16: 27 1E
- U + 3020 FACE MARK POSTAL:
〠
- Nº: 12320
- UTF-8: E3 80 A0
- UTF-16: 30 20
- U + 8089 CJK UNIFIED IDEOGRAPH-8089:
肉
- Nº: 32905
- UTF-8: E8 82 89
- UTF-16: 80 89
- U + 1F4A9 PILE OF POO:
💩
- Nº: 128169
- UTF-8: F0 9F 92 A9
- UTF-16: D8 3D DC A9
- ROKET U + 1F680:
🚀
- Nº: 128640
- UTF-8: F0 9F 9A 80
- UTF-16: D8 3D DE 80
Oke saya terbawa ...
Fakta menyenangkan: