Saya mencoba memahami bagaimana memahami sepenuhnya proses pengambilan keputusan dari model klasifikasi pohon keputusan yang dibangun dengan sklearn. 2 aspek utama yang saya lihat adalah representasi graphviz dari pohon dan daftar fitur penting. Yang tidak saya mengerti adalah bagaimana pentingnya fitur ditentukan dalam konteks pohon. Sebagai contoh, berikut adalah daftar penting fitur saya:
Peringkat fitur: 1. FeatureA (0.300237)
FeatureB (0.166800)
FeatureC (0,092472)
FeatureD (0,075009)
FeatureE (0,068310)
FiturF (0,067118)
FiturG (0,066510)
FiturH (0,043502)
FeatureI (0,040281)
FiturJ (0,039006)
FiturK (0,032618)
FiturL (0,008136)
FeatureM (0,000000)
Namun, ketika saya melihat bagian atas pohon, tampilannya seperti ini:
Bahkan, beberapa fitur yang berperingkat "paling penting" tidak muncul sampai jauh di bawah pohon, dan bagian atas pohon adalah FeatureJ yang merupakan salah satu fitur peringkat terendah. Asumsi naif saya adalah bahwa fitur yang paling penting akan diberi peringkat di dekat bagian atas pohon untuk memiliki dampak terbesar. Jika itu salah, lalu apa yang membuat fitur "penting"?