Saya mendapat skrip R dari seseorang untuk menjalankan model hutan acak. Saya memodifikasi dan menjalankannya dengan beberapa data karyawan. Kami mencoba memprediksi pemisahan sukarela.
Berikut adalah beberapa info tambahan: ini adalah model klasifikasi yang 0 = karyawan tetap, 1 = karyawan diberhentikan, saat ini kami hanya melihat selusin variabel prediktor, data "tidak seimbang" di mana catatan term'd membuat sekitar 7 % dari total catatan yang ditetapkan.
Saya menjalankan model dengan berbagai pilihan mtry dan ntree tetapi diselesaikan di bawah ini. OOB adalah 6,8% yang menurut saya baik tetapi matriks kebingungan tampaknya menceritakan kisah yang berbeda untuk memprediksi istilah karena tingkat kesalahan cukup tinggi pada 92,79% Apakah saya benar dalam berasumsi bahwa saya tidak dapat mengandalkan dan menggunakan model ini karena tingkat kesalahan tinggi untuk memprediksi istilah? atau ada sesuatu yang juga bisa saya lakukan untuk menggunakan RF dan mendapatkan tingkat kesalahan yang lebih kecil untuk memprediksi istilah?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908