Saya cukup baru dalam pembelajaran mesin, teknik-teknik CART dan sejenisnya, dan saya harap kenaifan saya tidak terlalu jelas.
Bagaimana Random Forest menangani struktur data multi-level / hierarkis (misalnya ketika interaksi lintas-level menarik)?
Yaitu, kumpulan data dengan unit analisis pada beberapa tingkatan hierarkis ( mis . Siswa bersarang di sekolah, dengan data tentang siswa dan sekolah).
Sama seperti contoh, pertimbangkan kumpulan data multi-level dengan individu di tingkat pertama ( misalnya , dengan data tentang perilaku memilih, demografi, dll.) Yang bersarang di dalam negara di tingkat kedua (dengan data tingkat negara; misalnya , populasi):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Katakanlah itu voted
adalah variabel respon / dependen dan yang lainnya adalah variabel prediktor / independen. Dalam jenis kasus ini, margin dan efek marginal dari suatu variabel (ketergantungan parsial) untuk beberapa variabel tingkat yang lebih tinggi ( misalnya , population
) untuk variabel tingkat individu yang berbeda, dll., Bisa sangat menarik. Dalam kasus yang mirip dengan ini, glm
tentu saja lebih tepat - tetapi ketika ada banyak variabel, interaksi dan / atau nilai-nilai yang hilang, dan / atau dataset skala besar dll, glm
tidak begitu dapat diandalkan.
Subquestions: Dapatkah Random Forest secara eksplisit menangani jenis struktur data ini dalam beberapa cara? Jika digunakan, bias apa yang diperkenalkannya? Jika Random Forest tidak sesuai, apakah ada metode ensemble-type lainnya?
(Pertanyaan Hutan acak pada data yang dikelompokkan mungkin serupa, tetapi tidak benar-benar menjawab ini.)