Saya sedang membaca:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu.
Apa yang saya Pahami:
iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering.
Dari perspektif itu
Selanjutnya frekuensi istilah dapat dengan tepat digambarkan sebagai
Jadi ukurannya
dalam beberapa cara proporsional dengan seberapa sering suatu istilah muncul dalam dokumen yang diberikan, dan seberapa unik istilah itu di atas kumpulan dokumen.
Apa yang tidak saya mengerti
Tetapi formula yang diberikan menggambarkannya sebagai
Saya ingin memahami perlunya logaritma yang dijelaskan dalam definisi. Seperti, mengapa mereka ada di sana? Aspek apa yang mereka tekankan?