Diketahui bahwa ketika membangun pohon keputusan, kami membagi variabel input secara mendalam dan menemukan pemisahan 'terbaik' dengan pendekatan uji statistik atau pendekatan fungsi Pengotor.
Pertanyaan saya adalah ketika kita menggunakan variabel kontinu sebagai variabel input (hanya beberapa nilai duplikat), jumlah pemisahan yang mungkin bisa sangat besar, untuk menemukan pemisahan 'terbaik' akan memakan waktu. Bagaimana ilmuwan data akan menanganinya?
Saya telah membaca beberapa bahan yang orang akan lakukan pengelompokan tingkat input untuk membatasi kemungkinan perpecahan. ( contoh ). Namun, mereka tidak menjelaskan bagaimana hal itu dilakukan. Apa yang kita mendasari untuk mengelompokkan variabel univariat? Apakah ada sumber daya untuk rincian lebih lanjut atau ada yang bisa menjelaskan secara detail?
Terima kasih!