Perbedaan antara tf-idf dan tf dengan Random Forests

Saya sedang mengerjakan masalah klasifikasi teks menggunakan Random Forest sebagai pengklasifikasi, dan pendekatan bag-of-words. Saya menggunakan implementasi dasar dari Random Forests (yang ada di scikit), yang menciptakan kondisi biner pada variabel tunggal di setiap pembagian. Mengingat hal ini, apakah ada perbedaan antara menggunakan fitur tf (frekuensi frekuensi) sederhana. di mana setiap kata memiliki bobot terkait yang mewakili jumlah kemunculan dalam dokumen, atau tf-idf (frekuensi istilah * frekuensi dokumen terbalik), di mana frekuensi istilah juga dikalikan dengan nilai yang mewakili rasio antara jumlah total dokumen dan jumlah dokumen yang mengandung kata)?

Menurut pendapat saya, seharusnya tidak ada perbedaan antara kedua pendekatan ini, karena satu-satunya perbedaan adalah faktor penskalaan pada setiap fitur, tetapi karena pemisahan dilakukan pada tingkat fitur tunggal, ini seharusnya tidak membuat perbedaan.

Apakah saya benar dalam alasan saya?

classification text-mining random-forest

— papafe
sumber

Mengapa tidak menguji kedua pendekatan pada set sampel kecil dan melihat apakah ada perbedaan?

— Charlie Greenbacker

Pohon keputusan (dan karenanya Hutan Acak) tidak sensitif terhadap transformasi monoton fitur input.

Karena mengalikan dengan faktor yang sama adalah transformasi monoton, saya berasumsi bahwa untuk Hutan Acak memang tidak ada perbedaan.

Namun, Anda akhirnya dapat mempertimbangkan untuk menggunakan pengklasifikasi lain yang tidak memiliki properti ini, jadi mungkin masih masuk akal untuk menggunakan seluruh TF * IDF.

— Alexey Grigorev
sumber

Saya hanya mencoba mencari tahu apakah alasan saya benar, jadi saya akan tetap menggunakan Hutan Acak, terima kasih atas bantuan Anda!

— papafe