Kapan menggunakan Gini najis dan kapan menggunakan informasi?


11

Dapatkah seseorang tolong jelaskan kepada saya kapan harus menggunakan pengotoran Gini dan informasi untuk pohon keputusan? Bisakah Anda memberi saya situasi / contoh kapan sebaiknya menggunakan yang mana?

Jawaban:


9

Anda harus mencobanya keduanya sebagai bagian dari penyetelan parameter.

Secara teoritis pengotor Gini meminimalkan skor Brier sementara entropi / informasi mendapatkan meminimalkan hilangnya log sehingga yang Anda tertarik membuat beberapa perbedaan. Namun hal-hal lain seperti seberapa mungkin masing-masing untuk menemukan efek multivariat dalam pertumbuhan pohon serakah alih-alih "terganggu" oleh yang univariat yang juga berperan dalam hal-hal. Yaitu Anda mungkin mendapatkan generalisasi yang lebih baik dari metrik pengotor yang tidak selalu memilih pemisahan "terbaik".

Dalam prakteknya (dalam konteks rf, lebih dari keranjang) saya telah menemukan entropi bekerja lebih baik untuk set data dimensi rendah yang lebih bersih di mana Anda mencoba untuk menyesuaikan sinyal yang lebih kompleks sebaik mungkin sementara gini bekerja lebih baik untuk berisik, sangat dimensional dimana Anda mencoba mengungkap sinyal sederhana dari antara banyak sinyal potensial yang berisik. Ini hanya pengalaman saya dan hampir pasti tidak akan berlaku untuk semua kasus.

Catatan: dimulai sebagai komentar tetapi dihapus dan dipindahkan ke jawaban untuk memformat sesuatu yang diperluas.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.