Jawabannya sangat mudah: TF-IDF dapat mencapai hasil yang lebih baik daripada frekuensi istilah sederhana jika dikombinasikan dengan beberapa metode yang diawasi.
Contoh kanonik menggunakan cosine similarity sebagai pengukuran kesamaan antara dokumen. Mengambil kosinus sudut antara representasi vektor TF-IDF dokumen dapat berhasil mengambil dokumen serupa yang relevan dengan akurasi lebih tinggi dari TF saja.
Ini karena IDF mengurangi bobot yang diberikan pada kata-kata umum, dan menyoroti kata-kata yang tidak umum dalam dokumen. Sebagian besar artikel berita bukan tentang burung unta, jadi artikel berita yang berisi "burung unta" tidak biasa, dan kami ingin mengetahuinya ketika mencoba menemukan dokumen yang serupa.
Tetapi dalam kasus kategorisasi teks menggunakan teknik ML yang diawasi standar, mengapa repot-repot menurunkan berat badan dengan frekuensi dokumen dalam corpus? Tidakkah pelajar itu sendiri akan memutuskan pentingnya untuk menetapkan setiap kata / kombinasi kata?
xyxyy), maka kami telah membuat tugas itu jauh lebih mudah bagi diri kami sendiri, dan komputer kami yang miskin dan bekerja terlalu keras! Saya pikir ini adalah komponen bidang yang kurang dihargai - orang menghabiskan banyak waktu mempelajari dan mempertimbangkan algoritme karena mereka independen terhadap domain, tetapi mengetahui lebih banyak tentang data Anda dan masalah yang Anda coba selesaikan dapat menyarankan jalur untuk peningkatan pengumpulan data atau representasi data yang membuat tugas jadi jauh lebih mudah - dan begitu mudah sehingga model kecanggihan hiasan tidak diperlukan.
Sejumlah sumber dapat ditemukan di sini , yang saya buat ulang untuk kenyamanan.
K. Sparck Jones. + Msgstr "Interpretasi statistik dari spesifisitas istilah dan penerapannya dalam pengambilan". Jurnal Dokumentasi, 28 (1). 1972.
G. Salton dan Edward Fox dan Wu Harry Wu. "Pengambilan informasi Boolean yang diperluas". Komunikasi ACM, 26 (11). 1983.
G. Salton dan MJ McGill. "Pengantar pengambilan informasi modern". 1983
G. Salton dan C. Buckley. "Pendekatan term-weighting dalam pencarian teks otomatis". Pemrosesan & Manajemen Informasi, 24 (5). 1988
H. Wu dan R. Luk dan K. Wong dan K. Kwok. "Menafsirkan bobot istilah TF-IDF sebagai membuat keputusan yang relevan". Transaksi ACM pada Sistem Informasi, 26 (3). 2008