Dalam Random Forest, masing-masing pohon ditanam secara paralel pada sampel pendamping data yang unik. Karena setiap sampel boostrap diharapkan mengandung sekitar 63% dari pengamatan unik, ini menyisakan sekitar 37% dari pengamatan, yang dapat digunakan untuk menguji pohon.
Sekarang, tampaknya dalam Stochastic Gradient Boosting, ada juga perkiraan serupa dengan yang ada di RF:
Jika fraksi bag. diatur ke lebih besar dari 0 (0,5 direkomendasikan), gbm menghitung perkiraan out-of-bag dari peningkatan kinerja prediktif. Ini mengevaluasi pengurangan penyimpangan pada pengamatan yang tidak digunakan dalam memilih pohon regresi berikutnya.
Sumber: Ridgeway (2007) , bagian 3.3 (halaman 8).
Saya mengalami kesulitan memahami cara kerjanya / valid. Katakanlah saya menambahkan pohon dalam urutan. Saya menumbuhkan pohon ini pada subsampel acak dari kumpulan data asli. Saya bisa menguji pohon tunggal ini pada pengamatan yang tidak digunakan untuk menumbuhkannya. Sepakat. TETAPI , karena Boosting berurutan, saya agak menggunakan seluruh urutan pohon yang dibangun sejauh ini untuk memberikan prediksi bagi pengamatan yang ditinggalkan itu. Dan, ada kemungkinan besar bahwa banyak pohon sebelumnya telah melihat pengamatan ini. Jadi model ini tidak benar-benar diuji pada setiap putaran pada pengamatan yang tidak terlihat seperti dengan RF, bukan?
Jadi, mengapa ini disebut estimasi kesalahan "out-of-bag"? Bagi saya, sepertinya tidak "keluar" dari tas apa pun karena pengamatan sudah terlihat?