Apakah Random Forest cocok untuk kumpulan data yang sangat kecil?


13

Saya memiliki kumpulan data yang terdiri dari 24 baris data bulanan. Fitur-fiturnya adalah PDB, kedatangan bandara, bulan, dan beberapa lainnya. Variabel dependen adalah jumlah pengunjung ke tujuan wisata populer. Apakah Random Forest cocok untuk masalah seperti itu?

Data bersifat non-publik sehingga saya tidak dapat memposting sampel.


Biasanya satu batasan pada hutan acak adalah bahwa jumlah fitur Anda harus cukup besar - langkah pertama RF adalah memilih 1 / 3n atau sqrt (n) fitur untuk membangun pohon (tergantung pada tugas, regresi / klasifikasi). Jadi jika Anda memiliki cukup banyak fitur, gunakan RF bahkan pada dataset kecil - tidak ada algoritma yang bekerja sangat baik pada dataset kecil sehingga Anda tidak kehilangan apa pun.
Demidov Jerman

Anda berada dalam kisaran rendah. RF akan berfungsi, tetapi mungkin tidak akan mempelajari hal-hal yang jauh lebih rumit, daripada apa yang dapat Anda sadari dari membintangi data mentah. Ini membantu, jika data Anda noise sangat rendah. Dari 40-50 sampel mulai membaik. 500 bagus. 5.000 dahsyat.
Soren Havelund Welling

untuk regresi kedalaman pohon yang mungkin dibatasi oleh minnode = 5, sehingga sampel Anda rata-rata tidak akan terpecah lebih dari 2 kali [[24 -> (1) 12 -> (2) 6.]] Termasuk batasan mtry, Model akan kesulitan menangkap efek interaksi atau bahkan efek non-linear sederhana. Anda bisa bermain-main dengan minnode dan mtry, tetapi Anda hanya harus melakukan itu jika data Anda praktis kurang noise. Potensi lebih dari kesimpulan yang cocok adalah flipside. Struktur model yang Anda peroleh akan terlihat seperti fungsi langkah yang dihaluskan secara kasar.
Soren Havelund Welling


Untuk dataset kecil, gunakan teknik Cross Validation. Untuk informasi lebih lanjut, stats.stackexchange.com/questions/19048/…
Asif Khan

Jawaban:


4

Hutan acak pada dasarnya adalah bootstrap resampling dan melatih pohon-pohon keputusan pada sampel, jadi jawaban untuk pertanyaan Anda perlu mengatasi keduanya.

Bootstrap resampling adalah bukan obat untuk sampel kecil . Jika Anda hanya memiliki dua puluh empat pengamatan dalam dataset Anda, maka masing-masing sampel yang diambil dengan penggantian dari data ini akan terdiri tidak lebih dari dua puluh empat nilai yang berbeda. Mengocok kasing dan tidak menggambar beberapa di antaranya tidak akan banyak mengubah kemampuan Anda untuk mempelajari sesuatu yang baru tentang distribusi yang mendasarinya. Jadi sampel kecil adalah masalah untuk bootstrap.

Pohon keputusan dilatih dengan membagi data secara kondisional pada variabel-variabel prediktor, satu variabel pada satu waktu, untuk menemukan sub-sampel yang memiliki kekuatan diskriminatif terbesar. Jika Anda hanya memiliki dua puluh empat kasing, maka katakan bahwa jika Anda beruntung dan semua potongannya berukuran sama, maka dengan dua perpecahan Anda akan berakhir dengan empat kelompok enam kotak, dengan potongan pohon, dengan delapan kelompok tiga. Jika Anda menghitung sarana bersyarat pada sampel (untuk memprediksi nilai kontinu dalam pohon regresi, atau probabilitas bersyarat dalam pohon keputusan), Anda akan mendasarkan kesimpulan Anda hanya pada beberapa kasus tersebut! Jadi sub-sampel yang akan Anda gunakan untuk membuat keputusan akan lebih kecil daripada data asli Anda.

Dengan sampel kecil biasanya bijaksana untuk menggunakan metode sederhana . Selain itu, Anda dapat menangkap sampel kecil dengan menggunakan prior informatif dalam pengaturan Bayesian (jika Anda memiliki pengetahuan out-of-data yang masuk akal tentang masalah), sehingga Anda dapat mempertimbangkan menggunakan beberapa model Bayesian yang dibuat khusus.


1

Di satu sisi, ini adalah kumpulan data kecil, dan hutan acak haus data.

Di sisi lain, mungkin ada sesuatu yang lebih baik daripada tidak sama sekali. Tidak ada lagi yang bisa dikatakan selain "Cobalah dan lihat." Anda harus memutuskan apakah model tertentu itu "baik;" Selain itu, kami tidak dapat memberi tahu Anda apakah model apa pun cocok untuk tujuan tertentu (dan Anda juga tidak ingin kami - tidak ada biaya bagi kami jika kami salah!).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.