Dalam aplikasi penambangan teks, salah satu pendekatan sederhana adalah menggunakan heuristik untuk membuat vektor sebagai representasi dokumen yang jarang. Ini bagus untuk pengaturan batch, di mana seluruh corpus dikenal a-priori, karena membutuhkan seluruh corpusi d f
di mana adalah istilah, adalah dokumen, adalah kumpulan dokumen, dan (tidak ditampilkan) adalah kamus.d D T
Namun biasanya dokumen baru diterima seiring waktu. Salah satu opsi adalah tetap menggunakan ada sampai sejumlah dokumen baru telah diterima, dan menghitung ulang. Namun ini tampaknya agak tidak efisien. Apakah ada yang tahu tentang skema pembaruan tambahan yang (mungkin kira-kira) konvergen ke nilai jika semua data terlihat sebelumnya? Atau sebagai alternatif apakah ada ukuran lain yang menangkap gagasan yang sama tetapi dapat dihitung secara bertahap?
Ada juga pertanyaan terkait apakah tetap ukuran yang baik dari waktu ke waktu. Karena idf menangkap gagasan tentang frekuensi kata corpus, dapat dibayangkan bahwa dokumen yang lebih lama di dalam corpus (misalnya, misalnya, corpus saya mencakup lebih dari 100 tahun artikel jurnal), karena frekuensi kata-kata yang berbeda berubah dari waktu ke waktu. Dalam hal ini mungkin masuk akal untuk membuang dokumen lama ketika dokumen baru masuk, yang berlaku menggunakan jendela geser . Dapat dibayangkan, kita juga bisa menyimpan semua vektor sebelumnya saat yang baru dihitung, dan kemudian jika kita ingin mengambil dokumen dari katakan 1920-1930, kita bisa menggunakan dihitung dari dokumen dalam rentang tanggal tersebut. Apakah pendekatan ini masuk akal?i d f i d f i d f
Edit: Ada masalah yang terpisah namun berhubungan tentang kamus . Seiring waktu berkembang, akan ada istilah kamus baru yang tidak muncul sebelumnya, jadiperlu tumbuh, dan karenanya panjang vektor . Sepertinya ini tidak akan menjadi masalah, karena nol dapat ditambahkan ke vektor lama .| T | i d f i d f