Berdasarkan komentar yang saya terima, saya memeriksanya lebih jauh. Tampaknya saat ini praktik terbaik adalah melupakan penggunaan entitas HTML dan sebagai gantinya menggunakan karakter UTF-8 yang sebenarnya . Alasan yang tercantum adalah sebagai berikut:
- Pengodean UTF-8 lebih mudah dibaca dan diedit bagi mereka yang memahami arti karakter dan mengetahui cara mengetiknya.
- Pengodean UTF-8 sama sulitnya dengan pengodean entitas HTML bagi mereka yang tidak memahaminya, tetapi mereka memiliki keuntungan dalam merender sebagai karakter khusus daripada sulit untuk memahami pengodean desimal atau heksadesimal.
Selama encoding halaman Anda disetel dengan benar ke UTF-8, Anda harus menggunakan karakter sebenarnya, bukan entitas HTML. Saya membaca beberapa dokumen tentang topik ini, tetapi yang paling berguna adalah:
Dari artikel UTF-8: Rahasia Pengkodean Karakter :
Wikipedia adalah studi kasus yang bagus untuk aplikasi yang awalnya menggunakan ISO-8859-1 tetapi beralih ke UTF-8 ketika menjadi terlalu rumit untuk mendukung bahasa asing. Bot sekarang benar-benar akan melalui artikel dan mengubah entitas karakter menjadi karakter nyata yang sesuai demi keramahan pengguna dan kemudahan pencarian .
Artikel itu juga memberikan contoh bagus yang melibatkan pengkodean bahasa Mandarin. Berikut adalah contoh singkatnya demi kemalasan:
UTF-8:
這兩個字是甚麼意思
Entitas HTML :
這兩個字是甚麼意思
Encoding entitas UTF-8 dan HTML sama-sama tidak berarti bagi saya, tetapi setidaknya encoding UTF-8 dapat dikenali sebagai bahasa asing , dan akan ditampilkan dengan benar di kotak edit. Artikel selanjutnya menjelaskan hal berikut tentang versi yang dikodekan entitas HTML:
Sangat merepotkan bagi kita yang benar-benar tahu apa itu entitas karakter, sama sekali tidak dapat dipahami oleh pengguna miskin yang tidak tahu! Bahkan entitas karakter yang sedikit lebih ramah pengguna dan "dapat dipahami" seperti & theta; akan membuat pengguna yang tidak tertarik mempelajari HTML menggaruk-garuk kepala. Di sisi lain, jika mereka melihat θ di kotak edit, mereka akan tahu bahwa itu adalah karakter khusus, dan memperlakukannya sesuai, bahkan jika mereka tidak tahu cara menulis karakter itu sendiri.
Seperti yang telah dicatat orang lain, Anda masih harus menggunakan entitas HTML untuk karakter XML yang dicadangkan (ampersand, less-than, more-than).