Saya menerapkan algoritma hutan acak sebagai penggolong pada dataset microarray yang dibagi menjadi dua kelompok yang dikenal dengan ribuan fitur. Setelah menjalankan awal saya melihat pentingnya fitur dan menjalankan algoritma pohon lagi dengan 5, 10 dan 20 fitur paling penting. Saya menemukan bahwa untuk semua fitur, top 10 dan 20 bahwa estimasi OOB tingkat kesalahan adalah 1,19% sedangkan untuk fitur top 5 adalah 0%. Ini tampaknya kontra-intuitif bagi saya, jadi saya bertanya-tanya apakah Anda bisa menjelaskan apakah saya kehilangan sesuatu atau saya menggunakan metrik yang salah.
Saya menggunakan paket randomForest di R dengan ntree = 1000, nodesize = 1 dan mtry = sqrt (n)