Saya memiliki latar belakang ilmu komputer tetapi saya mencoba mengajari diri sendiri ilmu data dengan memecahkan masalah di internet.
Saya telah mengerjakan masalah ini selama beberapa minggu terakhir (sekitar 900 baris dan 10 fitur). Saya awalnya menggunakan regresi logistik tetapi sekarang saya telah beralih ke hutan acak. Ketika saya menjalankan model hutan acak saya pada data pelatihan saya, saya mendapatkan nilai sangat tinggi untuk auc (> 99%). Namun ketika saya menjalankan model yang sama pada data uji hasilnya tidak begitu baik (Akurasi sekitar 77%). Ini membuat saya percaya bahwa saya terlalu cocok dengan data pelatihan.
Apa praktik terbaik tentang mencegah pemasangan berlebihan di hutan acak?
Saya menggunakan r dan rstudio sebagai lingkungan pengembangan saya. Saya menggunakan randomForest
paket dan telah menerima default untuk semua parameter