Saya sedang mempelajari pohon klasifikasi dan regresi, dan salah satu ukuran untuk lokasi split adalah skor GINI.
Sekarang saya terbiasa menentukan lokasi split terbaik ketika log rasio kemungkinan dari data yang sama antara dua distribusi adalah nol, yang berarti kemungkinan keanggotaan sama-sama mungkin.
Intuisi saya mengatakan bahwa harus ada semacam hubungan, bahwa GINI harus memiliki dasar yang baik dalam teori informasi matematika (Shannon) tetapi saya tidak memahami GINI dengan cukup baik untuk mendapatkan hubungan itu sendiri.
Pertanyaan:
- Apa derivasi "prinsip pertama" dari skor pengotor GINI sebagai ukuran untuk pemisahan?
- Bagaimana skor GINI terkait dengan log rasio kemungkinan atau fundamental informasi-teori lainnya (Shannon Entropy, pdf , dan cross entropy adalah bagian dari itu)?
Referensi:
- Bagaimana definisi Kriteria Gini Tertimbang?
- Matematika di balik pohon klasifikasi dan regresi
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(ditambahkan) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Entropi Shannon digambarkan sebagai:
Memperluas ini ke kasus multivarian yang kami dapatkan:
Entropi Bersyarat didefinisikan sebagai berikut:
Log rasio kemungkinan digunakan untuk deteksi perubahan mendadak dan diturunkan menggunakan ini. (Saya tidak memiliki derivasi di depan saya.)
Kenajisan GINI:
- Bentuk umum dari pengotor GINI adalah
Pikiran:
- Pemisahan dilakukan atas dasar ketidakmurnian. "Kemurnian" yang tinggi kemungkinan sama dengan entropi rendah. Pendekatan ini kemungkinan terkait dengan minimisasi entropi.
- Sangat mungkin bahwa distribusi basis yang diasumsikan seragam, atau mungkin dengan melambaikan tangan, Gaussian. Mereka kemungkinan membuat campuran distribusi.
- Saya ingin tahu apakah derivasi grafik Shewhart dapat diterapkan di sini?
- Pengotor GINI terlihat seperti integral dari fungsi kepadatan probabilitas untuk distribusi binomial dengan 2 percobaan, dan satu keberhasilan.
(tambahan)
- Bentuk ini juga konsisten dengan distribusi Beta-binomial yang merupakan konjugat sebelum distribusi Hypergeometrik. Tes hypergeometrik sering digunakan untuk menentukan sampel mana yang lebih atau kurang terwakili dalam sampel. Ada juga hubungan dengan tes eksak Fisher, apa pun itu (perhatikan sendiri, pelajari lebih lanjut tentang ini).
Sunting: Saya menduga ada bentuk GINI yang bekerja sangat baik dengan logika digital dan / atau rb-tree. Saya berharap untuk mengeksplorasi ini di proyek kelas musim gugur ini.