Asumsi hutan acak

43

Saya agak baru ke hutan acak jadi saya masih berjuang dengan beberapa konsep dasar.
Dalam regresi linier, kami mengasumsikan pengamatan independen, varians konstan ...

Apa asumsi / hipotesis dasar yang kita buat, ketika kita menggunakan hutan acak?
Apa perbedaan utama antara hutan acak dan bayaran naif dalam hal asumsi model?

regression classification random-forest

— pengguna1848018
sumber

33

Terima kasih untuk pertanyaan yang sangat bagus! Saya akan mencoba memberikan intuisi saya di baliknya.

Untuk memahami hal ini, ingat "bahan-bahan" dari pengelompokan hutan acak (ada beberapa modifikasi, tetapi ini adalah pipa umum):

Pada setiap langkah membangun pohon individu kami menemukan pemisahan data terbaik
Saat membangun pohon, kami tidak menggunakan seluruh dataset, tetapi sampel bootstrap
Kami mengumpulkan output pohon individu dengan rata-rata (sebenarnya 2 dan 3 berarti bersama-sama dengan prosedur pengemasan yang lebih umum ).

Asumsikan poin pertama. Tidak selalu mungkin untuk menemukan perpecahan terbaik. Sebagai contoh dalam dataset berikut setiap perpecahan akan memberikan tepat satu objek yang salah diklasifikasikan. Contoh dataset tanpa split terbaik

Dan saya pikir persis titik ini bisa membingungkan: memang, perilaku split individu entah bagaimana mirip dengan perilaku classifier Naif Bayes: jika variabel tergantung - tidak ada pemisahan yang lebih baik untuk Pohon Keputusan dan classifier Naif Bayes juga gagal (hanya untuk mengingatkan: variabel independen adalah asumsi utama yang kami buat dalam pengklasifikasi Naive Bayes; semua asumsi lain berasal dari model probabilistik yang kami pilih).

Tetapi inilah keuntungan besar dari pohon keputusan: kami mengambil pemecahan apa pun dan melanjutkan pemisahan lebih lanjut. Dan untuk pemisahan berikut kita akan menemukan pemisahan sempurna (merah). Contoh batas keputusan

Dan karena kita tidak memiliki model probabilistik, tetapi hanya pemisahan biner, kita tidak perlu membuat asumsi sama sekali.

Itu tentang Decision Tree, tetapi itu juga berlaku untuk Random Forest. Perbedaannya adalah bahwa untuk Random Forest kami menggunakan Agregasi Bootstrap. Tidak memiliki model di bawahnya, dan satu-satunya asumsi yang diandalkan adalah pengambilan sampel yang representatif . Tapi ini biasanya asumsi umum. Sebagai contoh, jika satu kelas terdiri dari dua komponen dan dalam dataset kami satu komponen diwakili oleh 100 sampel, dan komponen lain diwakili oleh 1 sampel - mungkin sebagian besar pohon keputusan individu hanya akan melihat komponen pertama dan Random Forest akan salah mengklasifikasi yang kedua . Contoh komponen kedua yang direpresentasikan dengan lemah

Semoga ini akan memberi pemahaman lebih lanjut.

— Dmitry Laptev
sumber

10

Dalam satu makalah 2010 para penulis mendokumentasikan bahwa model hutan acak memperkirakan pentingnya variabel ketika variabel multikolinear melintasi ruang statistik multi-dimensi. Saya biasanya memeriksa ini sebelum menjalankan model hutan acak.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

— Mina
sumber

3

Anda percaya kesimpulan "Mengkuantifikasi konektivitas boreas Bufo di Taman Nasional Yellowstone dengan genetika lanskap" dalam Ekologi yang ditulis oleh penulis Negara Bagian Colorado atas penulis Berkeley dalam Pembelajaran Mesin pada topik algoritma pembelajaran mesin?

— Hack-R

8

Saya tidak berpikir mereka berselisih satu sama lain. Breiman tidak menyelidiki 'kasus khusus' multikolinearitas melintasi ruang multi-dimensi. Juga, orang-orang di Colorado State juga bisa pintar- dan orang-orang ini juga.

— Mina