Perbedaan antara tf-idf dan tf dengan Random Forests


8

Saya sedang mengerjakan masalah klasifikasi teks menggunakan Random Forest sebagai pengklasifikasi, dan pendekatan bag-of-words. Saya menggunakan implementasi dasar dari Random Forests (yang ada di scikit), yang menciptakan kondisi biner pada variabel tunggal di setiap pembagian. Mengingat hal ini, apakah ada perbedaan antara menggunakan fitur tf (frekuensi frekuensi) sederhana. di mana setiap kata memiliki bobot terkait yang mewakili jumlah kemunculan dalam dokumen, atau tf-idf (frekuensi istilah * frekuensi dokumen terbalik), di mana frekuensi istilah juga dikalikan dengan nilai yang mewakili rasio antara jumlah total dokumen dan jumlah dokumen yang mengandung kata)?

Menurut pendapat saya, seharusnya tidak ada perbedaan antara kedua pendekatan ini, karena satu-satunya perbedaan adalah faktor penskalaan pada setiap fitur, tetapi karena pemisahan dilakukan pada tingkat fitur tunggal, ini seharusnya tidak membuat perbedaan.

Apakah saya benar dalam alasan saya?


Mengapa tidak menguji kedua pendekatan pada set sampel kecil dan melihat apakah ada perbedaan?
Charlie Greenbacker

Jawaban:


7

Pohon keputusan (dan karenanya Hutan Acak) tidak sensitif terhadap transformasi monoton fitur input.

Karena mengalikan dengan faktor yang sama adalah transformasi monoton, saya berasumsi bahwa untuk Hutan Acak memang tidak ada perbedaan.

Namun, Anda akhirnya dapat mempertimbangkan untuk menggunakan pengklasifikasi lain yang tidak memiliki properti ini, jadi mungkin masih masuk akal untuk menggunakan seluruh TF * IDF.


1
Saya hanya mencoba mencari tahu apakah alasan saya benar, jadi saya akan tetap menggunakan Hutan Acak, terima kasih atas bantuan Anda!
papafe
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.