Saya menggunakan hutan acak pada data kelompok berdimensi tinggi (50 variabel input numerik) yang memiliki struktur hierarki. Data dikumpulkan dengan 6 replikasi pada 30 posisi dari 70 objek berbeda yang menghasilkan 12600 titik data, yang tidak independen.
Tampaknya hutan acak terlalu pas data, karena kesalahan oob jauh lebih kecil dari kesalahan yang kita dapatkan ketika meninggalkan data dari satu objek keluar selama pelatihan dan kemudian memprediksi hasil objek yang ditinggalkan dengan hutan acak terlatih. Selain itu, saya memiliki residu yang berkorelasi.
Saya pikir overfitting disebabkan karena hutan acak mengharapkan data independen. Apakah mungkin untuk memberi tahu hutan acak tentang struktur hierarki data? Atau adakah metode ensemble atau penyusutan yang kuat yang dapat menangani data kelompok berdimensi tinggi dengan struktur interaksi yang kuat?
Adakah petunjuk bagaimana saya bisa melakukan yang lebih baik?