Saya sedang mengerjakan masalah klasifikasi teks menggunakan Random Forest sebagai pengklasifikasi, dan pendekatan bag-of-words. Saya menggunakan implementasi dasar dari Random Forests (yang ada di scikit), yang menciptakan kondisi biner pada variabel tunggal di setiap pembagian. Mengingat hal ini, apakah ada perbedaan antara menggunakan fitur tf (frekuensi frekuensi) sederhana. di mana setiap kata memiliki bobot terkait yang mewakili jumlah kemunculan dalam dokumen, atau tf-idf (frekuensi istilah * frekuensi dokumen terbalik), di mana frekuensi istilah juga dikalikan dengan nilai yang mewakili rasio antara jumlah total dokumen dan jumlah dokumen yang mengandung kata)?
Menurut pendapat saya, seharusnya tidak ada perbedaan antara kedua pendekatan ini, karena satu-satunya perbedaan adalah faktor penskalaan pada setiap fitur, tetapi karena pemisahan dilakukan pada tingkat fitur tunggal, ini seharusnya tidak membuat perbedaan.
Apakah saya benar dalam alasan saya?