Dalam Applied Predictive Modelling oleh Kuhn dan Johnson penulis menulis:
Akhirnya, pohon-pohon ini menderita bias seleksi: prediktor dengan jumlah nilai berbeda yang lebih tinggi lebih disukai daripada prediktor lebih granular (Loh dan Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh dan Shih (1997) mengatakan bahwa “Bahaya terjadi ketika kumpulan data terdiri dari campuran variabel informatif dan kebisingan, dan variabel kebisingan memiliki lebih banyak pemisahan daripada variabel informatif. Kemudian ada kemungkinan besar bahwa variabel-variabel kebisingan akan dipilih untuk membagi node atas pohon. Pemangkasan akan menghasilkan pohon dengan struktur yang menyesatkan atau tanpa pohon sama sekali. ”
Kuhn, Max; Johnson, Kjell (2013-05-17). Pemodelan Prediktif Terapan (Lokasi Kindle 5241-5247). Springer New York. Edisi menyalakan.
Mereka melanjutkan dengan mendeskripsikan beberapa penelitian membangun pohon yang tidak bias. Misalnya model GUIDE Loh.
Tetap seketat mungkin dalam kerangka CART, saya ingin tahu apakah ada yang bisa saya lakukan untuk meminimalkan bias seleksi ini? Sebagai contoh, mungkin mengelompokkan / mengelompokkan prediktor kardinalitas tinggi adalah salah satu strategi. Tetapi sampai sejauh mana seseorang harus melakukan pengelompokan? Jika saya memiliki prediktor dengan 30 level, haruskah saya mengelompokkan menjadi 10 level? 15? 5?