2
Praktik terbaik untuk pengkodean fitur kategorikal untuk Pohon Keputusan?
Ketika mengkode fitur kategorikal untuk regresi linier, ada aturan: jumlah boneka harus kurang dari jumlah total level (untuk menghindari kolinearitas). Apakah ada aturan yang sama untuk Pohon Keputusan (dikantongi, dikuatkan)? Saya menanyakan hal ini karena praktik standar dalam Python tampaknya adalah memperluas nlevel menjadi nboneka (sklearns ' OneHotEncoderatau Pandas' pd.get_dummies) …