Hutan acak pada dasarnya adalah bootstrap resampling dan melatih pohon-pohon keputusan pada sampel, jadi jawaban untuk pertanyaan Anda perlu mengatasi keduanya.
Bootstrap resampling adalah bukan obat untuk sampel kecil . Jika Anda hanya memiliki dua puluh empat pengamatan dalam dataset Anda, maka masing-masing sampel yang diambil dengan penggantian dari data ini akan terdiri tidak lebih dari dua puluh empat nilai yang berbeda. Mengocok kasing dan tidak menggambar beberapa di antaranya tidak akan banyak mengubah kemampuan Anda untuk mempelajari sesuatu yang baru tentang distribusi yang mendasarinya. Jadi sampel kecil adalah masalah untuk bootstrap.
Pohon keputusan dilatih dengan membagi data secara kondisional pada variabel-variabel prediktor, satu variabel pada satu waktu, untuk menemukan sub-sampel yang memiliki kekuatan diskriminatif terbesar. Jika Anda hanya memiliki dua puluh empat kasing, maka katakan bahwa jika Anda beruntung dan semua potongannya berukuran sama, maka dengan dua perpecahan Anda akan berakhir dengan empat kelompok enam kotak, dengan potongan pohon, dengan delapan kelompok tiga. Jika Anda menghitung sarana bersyarat pada sampel (untuk memprediksi nilai kontinu dalam pohon regresi, atau probabilitas bersyarat dalam pohon keputusan), Anda akan mendasarkan kesimpulan Anda hanya pada beberapa kasus tersebut! Jadi sub-sampel yang akan Anda gunakan untuk membuat keputusan akan lebih kecil daripada data asli Anda.
Dengan sampel kecil biasanya bijaksana untuk menggunakan metode sederhana . Selain itu, Anda dapat menangkap sampel kecil dengan menggunakan prior informatif dalam pengaturan Bayesian (jika Anda memiliki pengetahuan out-of-data yang masuk akal tentang masalah), sehingga Anda dapat mempertimbangkan menggunakan beberapa model Bayesian yang dibuat khusus.