Hubungan antara KS, AUROC, dan Gini


11

Statistik validasi model umum seperti uji Kolmogorov-Smirnov (KS), AUROC , dan koefisien Gini semuanya terkait secara fungsional. Namun, pertanyaan saya berkaitan dengan pembuktian bagaimana semua ini terkait. Saya ingin tahu apakah ada yang bisa membantu saya membuktikan hubungan ini. Saya belum dapat menemukan apa pun secara online, tetapi saya benar-benar tertarik bagaimana buktinya bekerja. Sebagai contoh, saya tahu Gini = 2AUROC-1, tetapi bukti terbaik saya melibatkan menunjuk pada grafik. Saya tertarik pada bukti formal. Bantuan apa pun akan sangat dihargai!


1
Dengan KS, maksud Anda statistik Kolmogorov-Smirnov? AUROC mungkin merupakan area di bawah kurva ROC?
Nitesh

Sepertinya mulai dari Wikipedia dan membaca referensi asli akan menjadi tempat yang baik untuk memulai.
LauriK

Jawaban:


1

Entri Wikipedia untuk karakteristik operasi Penerima merujuk makalah ini untuk hasil Gini = 2AUROC-1: Hand, David J .; dan Till, Robert J. (2001); Generalisasi sederhana area di bawah kurva ROC untuk masalah klasifikasi beberapa kelas, Pembelajaran Mesin, 45, 171–186. Tapi saya khawatir saya tidak memiliki akses mudah ke sana untuk melihat seberapa dekat dengan apa yang Anda inginkan.


1
... dan ini mungkin hasil yang tidak berguna, karena Gini biasanya diterapkan pada data yang memiliki dua pelabelan kategori, sementara AUROC diterapkan pada data peringkat numerik + label biner. Mereka mungkin bertepatan hanya jika peringkat Anda adalah biner? dalam hal ini tidak masuk akal untuk menggunakan AUROC sama sekali karena itu adalah kurva 3-titik dengan hanya 2 derajat kebebasan ... (Saya belum memeriksa hasilnya, terlalu banyak spam kertas di Wikipedia hari ini.)
Has QUIT - Anony-Mousse

0

Menurut makalah (Adeodato, PJ L dan Melo, SB 2016), ada hubungan linier antara Area di bawah kurva KS (AUKS) dan Area di bawah kurva ROC (AUROC), yaitu:

SEBUAHURHAIC=0,5+SEBUAHUKS

Bukti kesetaraan disertakan dalam makalah ini.


0

Hasilnya Gini = 2 * AUROC-1 sulit untuk dibuktikan karena belum tentu benar. Artikel Wikipedia tentang kurva Karakteristik Operasi Penerima memberikan hasil sebagai definisi Gini, dan artikel oleh Hand and Till (dikutip oleh nealmcb) hanya mengatakan bahwa definisi grafis Gini menggunakan kurva ROC mengarah ke rumus ini.

Tangkapannya adalah bahwa definisi Gini ini digunakan dalam komunitas pembelajaran mesin dan teknik, tetapi definisi yang berbeda digunakan oleh para ekonom dan ahli demografi (kembali ke makalah asli Gini). Artikel Wikipedia tentang koefisien Gini menetapkan definisi ini, berdasarkan pada kurva Lorenz.

Sebuah makalah oleh Schechtman & Schechtman (2016) menjabarkan hubungan antara AUC dan definisi asli Gini. Tetapi untuk melihat bahwa mereka tidak dapat persis sama, anggaplah bahwa proporsi kejadian adalah p dan bahwa kita memiliki penggolong sempurna. Kurva ROC kemudian melewati sudut kiri atas dan AUCROC adalah 1. Namun, kurva (terbalik) Lorenz berjalan dari (0,0) ke ( p , 1) ke (1,1) dan Gini para ekonom adalah 1 - p / 2, yang hampir tetapi tidak tepat 1.

Jika peristiwa jarang terjadi, maka hubungan Gini = 2 * AUROC-1 hampir tetapi tidak sepenuhnya benar menggunakan definisi asli Gini. Hubungan itu hanya benar jika Gini didefinisikan ulang untuk menjadikannya benar.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.