U + 4E00..U + 9FFF adalah bagian dari set lengkap, tapi tidak semua
U + 4E00..U + 9FFF adalah bagian dari set lengkap, tapi tidak semua
Jawaban:
Mungkin Anda akan menemukan daftar lengkapnya melalui CJK Unicode FAQ (yang menyertakan karakter "China, Jepang, dan Korea")
Dokumen " East Asian Script " memang menyebutkan:
Blok yang Mengandung Ideograf Han
Karakter ideografik Han ditemukan dalam lima blok utama Unicode Standard, seperti yang ditunjukkan pada Tabel 12-2
Tabel 12-2. Blok yang Mengandung Ideograf Han
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Catatan: rentang blok dapat berkembang dari waktu ke waktu: yang terbaru ada di Ideograf Terpadu CJK .
Lihat juga Wikipedia:
Unicode saat ini memiliki 74605 karakter CJK. Karakter CJK tidak hanya mencakup karakter yang digunakan oleh orang Cina, tetapi juga Kanji Jepang, Hanja Korea, dan Chu Nom Vietnam . Beberapa karakter CJK bukan karakter Cina.
Kode poin U + 4E00 ke U + 9FCC.
Kode poin U + 3400 ke U + 4DB5 . Unicode 3.0 (1999).
Kode poin U + 20000 ke U + 2A6D6. Unicode 3.1 (2001).
Kode poin U + 2A700 ke U + 2B734 . Unicode 5.2 (2009).
Kode poin U + 2B740 ke U + 2B81D . Unicode 6.0 (2010).
Jika hal di atas belum cukup untuk spageti, lihat masalah yang diketahui . Selamat bersenang-senang =)
Rentang yang tepat untuk karakter Cina (kecuali ekstensi) adalah [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
Suplemen Radikal CJK adalah blok Unicode yang berisi bentuk-bentuk radikal Kangxi alternatif, seringkali posisional. Mereka adalah tajuk yang digunakan dalam indeks kamus dan koleksi ideograf CJK lainnya yang diorganisasikan oleh garis stroke.
Kanbun adalah blok Unicode yang berisi karakter anotasi yang digunakan dalam salinan bahasa Jepang klasik China, untuk menunjukkan urutan membaca.
CJK Unified Ideographs Extension-A adalah blok Unicode yang berisi ideograf Han yang langka.
Ideograf Terpadu CJK adalah blok Unicode yang berisi ideograf CJK yang paling umum digunakan dalam bahasa Mandarin dan Jepang modern.
Ideograf Kompatibilitas CJK adalah blok Unicode yang dibuat untuk memuat karakter Han yang dikodekan di beberapa lokasi dalam pengkodean karakter mapan lainnya, selain tugas Ideograf Terpadu CJK, untuk mempertahankan kompatibilitas bolak-balik antara Unicode dan pengkodean tersebut.
Untuk detailnya, silakan merujuk ke sini , dan ekstensi disediakan di jawaban lain.
Unicode versi 11.0.0
Dalam Unicode, skrip China, Jepang, dan Korea (CJK) memiliki latar belakang yang sama, yang secara kolektif dikenal sebagai karakter CJK.
Rentang ini sering kali berisi poin kode yang tidak ditetapkan atau dicadangkan (seperti U + 2E9A , U + 2EF4 - 2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Oleh karena itu kisarannya
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Mereka adalah Han Biasa yang digunakan hanya untuk kompatibilitas.
Hampir tidak mungkin untuk melihatnya muncul di buku, artikel, tulisan berbahasa Mandarin, dll.
semua karakter di sini memiliki satu karakter China identik mesin terbang yang sesuai. Seperti 金 (U + F90A) dan 金 (U + 91D1), keduanya identik dalam Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Ini adalah jangkauan yang luas, beberapa tanda baca mungkin tidak pernah digunakan, beberapa tanda baca seperti ……”“
banyak digunakan dalam bahasa Cina.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Ada juga banyak simbol yang berhubungan dengan Cina, seperti Yijing Hexagram Symbols atau Kanbun , tapi itu di luar topik. Saya menulis karakter non-Tionghoa di CJK untuk mendapatkan penjelasan yang lebih baik tentang apa itu aksara Tionghoa. Dan range diatas sudah mencakup hampir semua karakter yang muncul dalam tulisan Cina kecuali matematika dan notasi khusus lainnya.
Simbol dan Tanda Baca CJK
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Bentuk Lebar Separuh dan Lebar Penuh
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Blok kode Unicode yang diberikan oleh jawaban lain pasti mencakup sebagian besar karakter Unicode Cina, tetapi lihat beberapa blok kode lainnya juga.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Lihat pembahasan lebih lengkap saya di sini . Dan situs ini nyaman untuk menjelajahi Unicode.
Untuk meringkas, sepertinya ini adalah mereka:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]