Decision Tree dengan variabel input kontinu

Diketahui bahwa ketika membangun pohon keputusan, kami membagi variabel input secara mendalam dan menemukan pemisahan 'terbaik' dengan pendekatan uji statistik atau pendekatan fungsi Pengotor.

Pertanyaan saya adalah ketika kita menggunakan variabel kontinu sebagai variabel input (hanya beberapa nilai duplikat), jumlah pemisahan yang mungkin bisa sangat besar, untuk menemukan pemisahan 'terbaik' akan memakan waktu. Bagaimana ilmuwan data akan menanganinya?

Saya telah membaca beberapa bahan yang orang akan lakukan pengelompokan tingkat input untuk membatasi kemungkinan perpecahan. ( contoh ). Namun, mereka tidak menjelaskan bagaimana hal itu dilakukan. Apa yang kita mendasari untuk mengelompokkan variabel univariat? Apakah ada sumber daya untuk rincian lebih lanjut atau ada yang bisa menjelaskan secara detail?

Terima kasih!

cart

— pe-perry
sumber

Tidak ada satu algoritma untuk melatih hutan acak tetapi banyak. Misalnya ID3, C4.5, CART, CHAID atau MARS. Jawaban atas pertanyaan Anda sangat tergantung pada algoritma yang digunakan ...

— MaxBenChrist

@ MaxBenChrist Bisakah Anda memilih satu atau dua dari mereka, misalnya CART untuk menjelaskan bagaimana variabel input dikelompokkan? Terima kasih!

— pe-perry

Algoritme akan dibagi dengan nampan / interval dan menemukan titik yang memberikan hasil paling serakah.

— HelloWorld

Metode yang umum adalah memeriksa hanya nampan tertentu sebagai titik / ambang pemisahan. Saya pikir inilah yang dimaksud oleh penulis presentasi yang Anda posting. Katakanlah Anda memiliki input acak variabel kontinu dengan 10 sampel $X$

[1,3,4,6,2,5,18,10, -3, -5]

Mungkin Anda tidak memeriksa setiap nilai dari 10 nilai yang diamati sebagai titik pemisahan. Sebagai gantinya Anda akan menghitung misalnya hanya memeriksa 20%, 40%, 60%, 80% dari data Anda. Jadi, Anda memesan data Anda $X$

[-5, -3,1,2,3,4,5,6,10,18]

dan "mengelompokkan" data Anda ke dalam nampan

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Jadi, Anda hanya perlu memeriksa -1,2.5,4,5, dan 8 sebagai titik pemisah yang mungkin (Anda menginterpolasi secara linear di antara nampan)

Makalah berikut membandingkan tiga aturan tentang bagaimana memilih titik pemisahan untuk diuji. Saya pikir itulah yang Anda cari.

@artikel {chickeringefisien, judul = {Penentuan Efisien Poin Split Dinamis dalam Pohon Keputusan}, penulis = {Chickering, David Maxwell dan Meek, Christopher dan Rounthwaite, Robert}}

— MaxBenChrist
sumber