Seperti yang akan Anda tunjukkan di tempat lain yang membahas tf-idf, tidak ada formula tunggal yang disepakati secara universal untuk menghitung tf-idf atau bahkan (seperti dalam pertanyaan Anda) idf . Tujuan dari adalah untuk mencapai salah satu dari dua tujuan: a) untuk divisi menghindari dengan nol , seperti ketika muncul istilah dalam tidak ada dokumen, meskipun ini tidak akan terjadi dalam ketat "tas dari kata-kata" pendekatan, atau b) untuk menetapkan batas bawah untuk menghindari istilah yang diberi bobot nol hanya karena muncul di semua dokumen.+ 1
Aku sudah benar-benar pernah melihat formulasi , meskipun Anda menyebutkan buku teks. Tetapi tujuannya adalah untuk menetapkan batas bawahlog(2)bukan nol, karena Anda benar menafsirkan. Saya telah melihat1 +log(Nl o g( 1 + Nnt)l o g( 2 )l o g( Nnt), yang menetapkan batas bawah dari 1. Perhitungan paling umum digunakan tampaknya, seperti dalam Manning, Christopher D, Prabhakar Raghavan, dan Hinrich Schütze (2008)Pengantar Pengambilan Informasi, Cambridge University Press, p118 atauWikipedia(berdasarkan sumber yang serupa).l o g( Nnt)
∞k + l o g( N/ s)k , s ∈ 0 , 1s→ ∞1 + nt= 1N→ ∞