Huruf N-gram digunakan sebagai ganti kata-kata karena beberapa alasan:
1) Daftar kata yang diperlukan untuk bahasa tertentu cukup besar, mungkin 100.000 jika Anda menganggap cepat, lebih cepat, tercepat, cepat, cepat, cepat, ... karena semua kata berbeda. Untuk 80 bahasa, Anda membutuhkan sekitar 80x lebih banyak kata, menghabiskan banyak ruang - 50+ megabita.
2) Jumlah trigram huruf untuk alfabet 26 huruf adalah 26 ** 3 atau sekitar 17.000 dan untuk quadgram (N = 4) sekitar 450.000 mencakup SEMUA bahasa menggunakan alfabet itu. Angka serupa tetapi agak lebih besar untuk N-gram dalam huruf lebih besar dari 30-100 karakter. Untuk bahasa CJK dengan 4000+ huruf dalam skrip Han, unigrams (N = 1) sudah cukup. Untuk beberapa skrip Unicode, hanya ada satu bahasa per skrip (Yunani, Armenia), jadi tidak diperlukan kombinasi huruf (disebut nil-gram N = 0)
3) Dengan kata-kata, Anda tidak memiliki informasi sama sekali ketika diberi kata tidak dalam kamus, sedangkan dengan huruf N-gram Anda sering memiliki setidaknya beberapa kombinasi huruf yang berguna di dalam kata itu.
CLD2 menggunakan quadgram untuk sebagian besar skrip Unicode (huruf) termasuk Latin, Cyrillic, dan Arab, unigrams untuk skrip CJK, nilgram untuk skrip lain, dan juga menyertakan sejumlah kata lengkap yang cukup khas dan cukup umum serta pasangan kata untuk membedakan dalam kelompok-kelompok sulit bahasa yang serupa secara statistik, seperti bahasa Indonesia dan Melayu. Surat bigrams dan trigram mungkin berguna untuk membedakan di antara sejumlah kecil bahasa (sekitar delapan bahasa, lihat https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), tetapi tidak berguna untuk membedakan lusinan bahasa. Jadi, CLD2 menggunakan quadgram, yang berasosiasi dengan setiap kombinasi huruf, tiga bahasa teratas yang paling mungkin menggunakan kombinasi itu. Ini memungkinkan mencakup 80 bahasa dengan sekitar 1,5 MB tabel dan 160 bahasa lebih detail dengan sekitar 5MB tabel.