Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti pendekatan bag-of-words, yaitu, menghitung jumlah frekuensi dalam hal bi-gram daripada kata-kata, dan meningkatkannya menggunakan skema pembobotan tf-idf?