Saya bermain dengan randomForest dan menemukan bahwa secara umum meningkatkan sampSize mengarah ke kinerja yang lebih baik. Apakah ada aturan / formula / etc yang menyarankan apa yang seharusnya sampSize optimal atau apakah itu hal coba-coba? Saya kira cara lain untuk mengungkapkannya; apa risiko saya dari sampSize yang terlalu kecil atau terlalu besar (overfitting?)
Pertanyaan ini merujuk pada implementasi R hutan acak dalam randomForest
paket. Fungsi ini randomForest
memiliki parameter sampSize
yang dijelaskan dalam dokumentasi sebagai
Ukuran sampel untuk menggambar. Untuk klasifikasi, jika sampsize adalah vektor dari panjang jumlah strata, maka pengambilan sampel dikelompokkan berdasarkan strata, dan elemen-elemen sampsize menunjukkan angka yang akan diambil dari strata.