Saya cukup baru di hutan acak. Di masa lalu, saya selalu membandingkan akurasi fit vs tes terhadap fit vs kereta untuk mendeteksi overfitting apapun. Tapi saya baru baca di sini bahwa:
"Di hutan acak, tidak perlu untuk validasi silang atau set tes terpisah untuk mendapatkan estimasi yang tidak bias dari kesalahan set tes. Diperkirakan secara internal, selama menjalankan ..."
Paragraf kecil di atas dapat ditemukan di bawah Bagian estimasi kesalahan out-of-bag (oob) . Konsep Out of Bag Error ini benar-benar baru bagi saya dan yang sedikit membingungkan adalah bagaimana kesalahan OOB dalam model saya adalah 35% (atau akurasi 65%), namun, jika saya menerapkan validasi silang ke data saya (hanya penahanan sederhana metode) dan membandingkan kedua tes fit vs terhadap fit vs train saya mendapatkan akurasi 65% dan akurasi 96% masing-masing. Dalam pengalaman saya, ini dianggap overfitting tetapi OOB memiliki kesalahan 35% seperti kesalahan fit vs test saya . Apakah saya overfitting? Haruskah saya menggunakan validasi silang untuk memeriksa overfitting di hutan acak?
Singkatnya, saya tidak yakin apakah saya harus mempercayai OOB untuk mendapatkan kesalahan yang tidak bias dari kesalahan set tes ketika fit vs train saya menunjukkan bahwa saya overfitting!