Hutan acak pada data yang dikelompokkan


11

Saya menggunakan hutan acak pada data kelompok berdimensi tinggi (50 variabel input numerik) yang memiliki struktur hierarki. Data dikumpulkan dengan 6 replikasi pada 30 posisi dari 70 objek berbeda yang menghasilkan 12600 titik data, yang tidak independen.

Tampaknya hutan acak terlalu pas data, karena kesalahan oob jauh lebih kecil dari kesalahan yang kita dapatkan ketika meninggalkan data dari satu objek keluar selama pelatihan dan kemudian memprediksi hasil objek yang ditinggalkan dengan hutan acak terlatih. Selain itu, saya memiliki residu yang berkorelasi.

Saya pikir overfitting disebabkan karena hutan acak mengharapkan data independen. Apakah mungkin untuk memberi tahu hutan acak tentang struktur hierarki data? Atau adakah metode ensemble atau penyusutan yang kuat yang dapat menangani data kelompok berdimensi tinggi dengan struktur interaksi yang kuat?

Adakah petunjuk bagaimana saya bisa melakukan yang lebih baik?


Apa sifat dari data hierarkis? Apakah ini memungkinkan Anda untuk menggunakan dedaunan data sebagai titik data Anda?
casperOne

1
Sudahkah Anda mempertimbangkan bootstrap tingkat hierarki tertinggi, daripada individu?
generic_user

Jawaban:


1

Sangat terlambat ke pesta juga, tetapi saya pikir itu bisa terkait dengan sesuatu yang saya lakukan beberapa tahun yang lalu. Karya itu dipublikasikan di sini:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

dan tentang berurusan dengan variabel korelasi ke dalam ansambel pohon keputusan. Anda harus melihat pada daftar pustaka yang menunjuk ke banyak proposal untuk menangani jenis masalah ini (yang umum di bidang "genetik").

Kode sumber tersedia di sini (tetapi tidak benar-benar dipertahankan lagi).


-1

Over-Fitting dari Random Forest dapat disebabkan oleh berbagai alasan, dan itu sangat tergantung pada parameter RF. Tidak jelas dari pos Anda bagaimana Anda menyetel RF Anda.

Berikut beberapa tips yang dapat membantu:

  1. Tambah jumlah pohon

  2. Tune Kedalaman Maksimum dari pohon. Parameter ini sangat tergantung pada masalah yang dihadapi. Menggunakan pohon yang lebih kecil dapat membantu mengatasi masalah overfitting.


2
Sangat terlambat ke pesta, tetapi jawaban ini tidak akan menyelesaikan masalah karena sifat hierarkis dari kumpulan data.
cbeleites tidak senang dengan SX
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.