Umum
Karakter-karakter itu tidak dimaksudkan untuk teks alfabet Latin biasa tetapi untuk fonetik, teks alfabet Sirilik, untuk digunakan sebagai simbol matematika (mewakili variabel), atau serupa. Satu-satunya cara Unicode-compliant untuk menyandikan teks dalam alfabet Latin dasar adalah dengan menggunakan karakter yang sebagian besar digunakan untuk tujuan ini (yaitu, dari blok Unicode Latin Dasar ).
Seperti banyak standar lainnya, Anda harus berpikir dua kali tentang melanggar Unicode. Selain itu, Unicode terdiri dari begitu banyak sistem penulisan, kasus penggunaan, dan hal-hal yang hanya ada untuk kompatibilitas dengan standar lain 1 yang sepenuhnya memahami semua motivasinya adalah ilmu tersendiri. Singkatnya, kecuali jika Anda benar-benar tahu apa yang Anda lakukan, sangat mungkin ada sesuatu yang tidak Anda pikirkan.
Contoh spesifik
Aksesibilitas
Teks yang disandikan tidak hanya ada untuk dirender dalam beberapa font. Ini juga dapat diartikan, misalnya oleh pembaca layar. Dan pembaca layar tidak perlu menebak apakah
𝓽𝓱𝓮
dimaksudkan untuk menjadi artikel pasti atau produk matematika 2 dari variabel 𝓽, 𝓱, dan 𝓮 - untuk itulah karakter tersebut dibuat. Karenanya, perilaku terbaik adalah menjabarkan karakter-karakter ini, misalnya mengatakan secara harfiah hal berikut:
huruf tebal kecil t, huruf tebal kecil h, huruf tebal kecil e
Seharusnya tidak hanya mengatakan "itu" sebagai gantinya karena itu tidak akan benar membaca teks matematika yang simbolnya membentuk kata yang dapat diucapkan. 3
Portabilitas
Jika teks Anda ditampilkan dengan baik di mesin Anda, ini tidak berarti bahwa itu juga akan menjadi milik pembaca. Contoh yang paling jelas adalah bahwa pembaca tidak memiliki font yang mendukung karakter ini atau teks yang diberikan oleh perangkat lunak tidak mendukung font fallback. Memang, ini menjadi semakin tidak umum. Perlu diingat bahwa beberapa orang yang menyukai disleksia memerlukan font khusus yang kecil kemungkinannya mendukung karakter ini.
Tetapi bahkan jika mesin pembaca hanya menggunakan font yang berbeda, ini mungkin membuat teks jauh lebih mudah dibaca. Sebagai contoh pertama , ini 𝓉𝒽ℯ diterjemahkan dengan dua font berbeda:
Serif Gratis merender teks karena Anda mungkin ingin membuatnya ditampilkan saat menggunakan karakter khusus untuk mensimulasikan teks, yaitu mensimulasikan tulisan tangan dengan goresan terus menerus. Namun, karakter ini dibuat untuk digunakan sebagai simbol matematika, menghubungkan yang tidak masuk akal. Oleh karena itu rendering oleh STIX , yang secara khusus dirancang untuk tujuan matematika, lebih sesuai dengan bagaimana karakter ini dimaksudkan untuk digunakan.
Dalam contoh kedua , misalkan Anda atau pembaca menulis miring “сᴜт мy вᴀʀ” untuk beberapa alasan. Dengan font yang bagus, Anda akan mendapatkan 4 :
Alasan untuk ini adalah bahwa topi kecil itu (sebagian) disimulasikan dengan huruf Cyrillic, dan huruf miring Cyrillic kadang-kadang terlihat sangat berbeda dari rekan-rekan mereka yang tegak . Jadi sekali lagi, ini adalah perilaku yang tepat.
Ketelusuran
Sebagai contoh pertama, pertimbangkan apa yang Anda inginkan dari pencarian wajar dengan karakter 𝒲 (skrip matematika W ). Asumsikan bahwa pencarian memiliki dua mode, mode default dan mode persis (biasanya disebut case-sensitive ). Karakter ini harus:
ditemukan ketika mencari w atau W dalam mode default - bagi mereka yang tidak ingin repot memasukkan atau menyalin-paste karakter khusus ke dalam kolom pencarian;
ditemukan ketika mencari 𝒲 dalam mode tepat - bagi mereka yang ingin mencari di mana variabel yang sesuai disebutkan dalam dokumen matematika³;
tidak ditemukan saat mencari 𝓌, w atau W dalam mode tepat karena melanggar pencarian yang mirip dengan di atas.
Namun jika Anda menggunakan karakter ini untuk mensimulasikan teks biasa, itu harus ditemukan ketika mencari W atau 𝒲 dalam mode yang tepat, yang bertentangan dengan yang di atas.
Sebagai contoh kedua pertimbangkan bahwa karakter Cyrillic tidak boleh ditemukan ketika mencari karakter Latin dan sebaliknya, karena mereka sama sekali berbeda. Namun jika menggunakan karakter Cyrillic untuk mensimulasikan huruf kecil Latin, Anda perlu ini terjadi, jika Anda tidak ingin kemampuan pencarian untuk dipatahkan. Ini akan menyebabkan orang menemukan banyak hal yang tidak berguna jika mereka mencari kata alfabet Latin langka yang kebetulan sesuai dengan tutup kecil palsu dari beberapa kata alfabet Cyrillic populer (dan sebaliknya).
Opsi pencarian yang tepat tidak dapat menyelesaikan masalah ini, karena ini disediakan untuk keperluan lain dalam huruf-huruf itu.
Secara umum , tidak mungkin untuk membangun pencarian (tanpa jumlah pilihan yang gila) yang tidak rusak dengan menggunakan karakter khusus untuk mensimulasikan teks gaya Latin.
1 Anda tahu XKCD tentang kegagalan standar pemersatu yang tidak terhindarkan ? Yah, Unicode berhasil.
2 atau apa pun operator kosong dalam konvensi terkait
3 Saya menyadari bahwa sangat sedikit teks matematika saat ini mendukung pengkodean ini atau sesuatu yang kompatibel dengan itu tetapi intinya adalah bahwa suatu hari nanti mereka diharapkan melakukannya. Teks yang menyalahgunakan Unicode Anda mungkin masih ada dan baca kemudian.
4 Kecuali jika Anda melokalisasi untuk Makedonia atau Serbia, di mana Anda akan mendapatkan hasil yang berbeda tetapi masih tidak diinginkan.