2
Mengapa n-gram digunakan dalam identifikasi bahasa teks, bukan kata-kata?
Dalam dua perpustakaan identifikasi bahasa populer, Compact Language Detector 2 untuk C ++ dan bahasa detektor untuk java, keduanya menggunakan (berbasis karakter) n-gram untuk mengekstraksi fitur teks. Mengapa kantung kata-kata (satu kata / kamus) tidak digunakan, dan apa keuntungan dan kerugian kantung kata-kata dan n-gram? Juga, apa kegunaan lain dari …