Secara kasar, beberapa potensi over-fitting yang mungkin terjadi dalam satu pohon (yang merupakan alasan Anda melakukan pemangkasan umumnya) dimitigasi oleh dua hal di Hutan Acak:
- Fakta bahwa sampel yang digunakan untuk melatih masing-masing pohon "bootstrap".
- Fakta bahwa Anda memiliki banyak pohon acak menggunakan fitur acak dan karenanya masing-masing pohon kuat tetapi tidak begitu berkorelasi satu sama lain.
Sunting: berdasarkan komentar OP di bawah ini:
Pasti masih ada potensi untuk over-fitting. Sejauh artikel, Anda dapat membaca tentang motivasi untuk "mengantongi" oleh Breiman dan "bootstrap" secara umum oleh Efron dan Tibshirani. Sejauh 2., Brieman memperoleh batasan longgar pada kesalahan generalisasi yang terkait dengan kekuatan pohon dan anti-korelasi dari masing-masing pengklasifikasi. Tidak ada yang menggunakan batasan (kemungkinan besar) tetapi ini dimaksudkan untuk memberikan intuisi tentang apa yang membantu kesalahan generalisasi rendah dalam metode ensemble. Ini ada di kertas Random Forests sendiri. Posting saya adalah untuk mendorong Anda ke arah yang benar berdasarkan pembacaan ini dan pengalaman / deduksi saya.
- Breiman, L., Prediktor Bagging, Pembelajaran Mesin, 24 (2), hal.123-140, 1996.
- Efron, B .; Tibshirani, R. (1993). Pengantar Bootstrap. Boca Raton, FL
- Breiman, Leo (2001). "Hutan Acak". Pembelajaran Mesin 45 (1): 5–32.