Hutan acak online dengan menambahkan lebih banyak Pohon Keputusan tunggal


13

Hutan Acak (RF) dibuat oleh ensemble dari Decision Trees's (DT). Dengan menggunakan bagging, setiap DT dilatih dalam subset data yang berbeda. Oleh karena itu, adakah cara menerapkan hutan acak online dengan menambahkan lebih banyak keputusan pengambilan data baru?

Sebagai contoh, kami memiliki sampel 10K dan melatih 10 DT. Kemudian kami mendapatkan sampel 1K, dan alih-alih melatih lagi RF lengkap, kami menambahkan DT baru. Prediksi ini dilakukan sekarang oleh rata-rata Bayesian 10 + 1 DT.

Selain itu, jika kita menyimpan semua data sebelumnya, DT baru dapat dilatih terutama dalam data baru, di mana probabilitas memilih sampel tertimbang tergantung berapa kali telah diambil.

Jawaban:


8

Ada makalah terbaru tentang hal ini ( Hutan Acak Online ), yang berasal dari visi komputer. Berikut ini adalah implementasi , dan presentasi: Hutan acak online dalam 10 menit


Implementasi yang Anda sebutkan mengikuti strategi penanaman pohon, seperti hutan Mondrian ( arxiv.org/abs/1406.2673 ). Oleh karena itu, jumlah pohon konstan sedangkan jumlah pemisahan meningkat. Pertanyaan saya berfokus pada peningkatan jumlah pohon untuk sampel baru sambil tetap tidak tersentuh pohon yang sebelumnya dilatih.
tashuhka

1
Seperti ini ? Bukankah Anda juga ingin menjatuhkan pohon jika perlu?
Emre

Terima kasih. Ini lebih mirip dengan apa yang saya cari. Dalam hal ini, gunakan RF untuk pemilihan fitur sinyal varian waktu. Namun, implementasi spesifik dan validitas metode ini cukup tidak jelas, apakah Anda tahu jika mereka menerbitkan sesuatu (Google tidak membantu)?
tashuhka


Terima kasih untuk tautannya! Saya dapat melihat bahwa mereka benar-benar memperbarui semua pohon sebelumnya menggunakan strategi penanaman pohon, dan saya tertarik untuk membuat DT baru dengan data baru sambil tetap tidak menyentuh pohon-pohon tua.
tashuhka
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.