Apa perbedaan dalam apa AIC dan c-statistik (AUC) sebenarnya mengukur untuk model yang sesuai?

Kriteria Informasi Akaike (AIC) dan statistik-c (area di bawah kurva ROC) adalah dua ukuran model yang cocok untuk regresi logistik. Saya mengalami kesulitan menjelaskan apa yang sedang terjadi ketika hasil dari kedua langkah tersebut tidak konsisten. Saya kira mereka mengukur aspek fit model yang sedikit berbeda, tetapi apa saja aspek spesifiknya?

Saya memiliki 3 model regresi logistik. Model M0 memiliki beberapa kovariat standar. Model M1 menambahkan X1 ke M0; model M2 menambahkan X2 ke M0 (jadi M1 dan M2 tidak bersarang).

Perbedaan AIC dari M0 ke M1 dan M2 adalah sekitar 15, menunjukkan X1 dan X2 keduanya meningkatkan kesesuaian model, dan sekitar jumlah yang sama.

c-statistik adalah: M0, 0,70; M1, 0,73; M2 0,72. Perbedaan dalam c-statistik dari M0 ke M1 adalah signifikan (metode DeLong et al 1988), tetapi perbedaan dari M0 ke M2 tidak signifikan, menunjukkan bahwa X1 meningkatkan kesesuaian model, tetapi X2 tidak.

X1 tidak dikumpulkan secara rutin. X2 seharusnya dikumpulkan secara rutin tetapi hilang pada sekitar 40% kasus. Kami ingin memutuskan apakah akan mulai mengumpulkan X1, atau meningkatkan koleksi X2, atau menjatuhkan kedua variabel.

Dari AIC kami menyimpulkan bahwa variabel membuat perbaikan yang mirip dengan model. Mungkin lebih mudah untuk meningkatkan koleksi X2 daripada mulai mengumpulkan variabel yang benar-benar baru (X1), jadi kami bertujuan untuk meningkatkan koleksi X2. Tetapi dari c-statistik, X1 meningkatkan model dan X2 tidak, jadi kita harus melupakan X2 dan mulai mengumpulkan X1.

Karena rekomendasi kami bergantung pada statistik yang menjadi fokus kami, kami perlu memahami dengan jelas perbedaan dalam pengukurannya.

Ada saran.

— timbp
sumber

Jawaban:

AIC dan c-statistik mencoba menjawab pertanyaan yang berbeda. (Juga beberapa masalah dengan c-statistik telah diangkat dalam beberapa tahun terakhir, tapi saya akan mengesampingkannya)

Secara kasar:

AIC memberitahu Anda seberapa baik model yang cocok Anda untuk spesifik biaya mis-klasifikasi.
AUC memberi tahu Anda seberapa baik model Anda akan bekerja, rata-rata, di semua biaya kesalahan klasifikasi.

Ketika Anda menghitung AIC Anda memperlakukan logistik Anda memberikan prediksi katakanlah 0,9 menjadi prediksi dari 1 (yaitu lebih mungkin 1 dari 0), namun itu tidak perlu. Anda bisa mengambil skor logistik Anda dan mengatakan "apa pun di atas 0,95 adalah 1, semuanya di bawah adalah 0". Mengapa kamu melakukan ini? Nah ini akan memastikan bahwa Anda hanya memprediksi satu ketika Anda benar-benar sangat percaya diri. Nilai positif palsu Anda akan sangat rendah, tetapi negatif palsu Anda akan meroket. Dalam beberapa situasi ini bukan hal yang buruk - jika Anda akan menuduh seseorang melakukan penipuan, Anda mungkin ingin benar-benar yakin terlebih dahulu. Juga, jika sangat mahal untuk menindaklanjuti hasil positif, maka Anda tidak ingin terlalu banyak.

Inilah sebabnya mengapa ini berkaitan dengan biaya. Ada biaya ketika Anda mengklasifikasikan 1 sebagai 0 dan biaya ketika Anda mengklasifikasikan 0 sebagai 1. Biasanya (dengan asumsi Anda menggunakan pengaturan default), AIC untuk regresi logistik merujuk pada kasus khusus ketika kedua klasifikasi salah sama mahal. Artinya, regresi logistik memberi Anda jumlah keseluruhan prediksi yang benar terbaik, tanpa preferensi untuk positif atau negatif.

Kurva ROC digunakan karena ini memplot nilai positif benar terhadap false positif untuk menunjukkan bagaimana kinerja classifier jika Anda menggunakannya di bawah persyaratan biaya yang berbeda. Statistik-c muncul karena setiap kurva ROC yang terletak persis di atas yang lain jelas merupakan penggolong yang mendominasi. Oleh karena itu intuitif untuk mengukur area di bawah kurva sebagai ukuran seberapa baik pengklasifikasi secara keseluruhan.

Jadi pada dasarnya, jika Anda tahu biaya Anda saat memasang model, gunakan AIC (atau serupa). Jika Anda hanya membuat skor, tetapi tidak menentukan ambang diagnostik, maka pendekatan AUC diperlukan (dengan peringatan berikut tentang AUC itu sendiri).

Jadi apa yang salah dengan c-statistik / AUC / Gini?

Selama bertahun-tahun AUC adalah pendekatan standar, dan masih banyak digunakan, namun ada beberapa masalah dengan itu. Satu hal yang membuatnya sangat menarik adalah bahwa itu sesuai dengan tes Wilcox pada peringkat klasifikasi. Itu diukur probabilitas bahwa skor anggota yang dipilih secara acak dari satu kelas akan lebih tinggi daripada anggota yang dipilih secara acak dari kelas lain. Masalahnya adalah, itu hampir tidak pernah menjadi metrik yang berguna.

Masalah paling kritis dengan AUC dipublikasikan oleh David Hand beberapa tahun yang lalu. (Lihat referensi di bawah) Inti masalahnya adalah bahwa sementara AUC melakukan rata-rata atas semua biaya, karena sumbu x dari kurva ROC adalah False Positive Rate, bobot yang diberikannya pada rezim biaya yang berbeda bervariasi di antara pengklasifikasi. Jadi, jika Anda menghitung AUC pada dua regresi logitic yang berbeda itu tidak akan mengukur "hal yang sama" dalam kedua kasus. Ini berarti tidak masuk akal untuk membandingkan model berdasarkan AUC.

Hand mengusulkan perhitungan alternatif menggunakan pembobotan biaya tetap, dan menyebut ini ukuran H - ada paket dalam R yang disebut hmeasureyang akan melakukan perhitungan ini, dan saya percaya AUC untuk perbandingan.

Beberapa referensi tentang masalah dengan AUC:

Kapan area di bawah kurva karakteristik operasi penerima ukuran yang tepat untuk kinerja classifier? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495

(Saya menemukan ini sebagai penjelasan yang sangat mudah diakses dan bermanfaat)

— Corone
sumber

Dan di sini ada makalah lain oleh DJ Hand: Mengukur kinerja classifier: alternatif yang koheren ke area di bawah kurva ROC , Machine Learning (2009) 77: 103–123.

— chl

Itulah yang saya cari - ya itu adalah makalah kunci pertama tentang hal ini (walaupun saya pikir itu akibatnya ditargetkan pada audiens yang lebih teknis daripada beberapa makalah kemudian).

— Corone

R^{2}

$R^2$

Saya bingung dengan jawaban Corone, saya pikir AIC tidak ada hubungannya dengan kinerja prediksi model dan bahwa itu hanya ukuran kemungkinan data yang diperdagangkan dengan kompleksitas model.

— Zhubarb

@Berkan tidak yakin apa yang Anda maksud dengan "tidak ada hubungannya dengan kinerja prediktif", kecuali jika Anda hanya bermaksud bahwa itu adalah ukuran sampel bukan sampel? (Semakin besar kemungkinan semakin baik "memprediksi" titik data tersebut). Intinya adalah bahwa AIC adalah untuk fungsi likelihood tertentu yang dipilih sebelumnya, sedangkan AIC adalah rata-rata daripada serangkaian fungsi tersebut. Jika Anda mengetahui kemungkinannya (yaitu ambang, biaya, prevalensi ...) maka Anda dapat menggunakan AIC.

— Corone

Kertas tangan yang dikutip tidak memiliki dasar dalam penggunaan dunia nyata dalam diagnostik klinis. Dia memiliki kurva teoritis dengan 0,5 AUC, yang merupakan penggolong sempurna. Dia menggunakan satu set data dunia nyata, di mana model akan dibuang begitu saja, karena mereka begitu buruk, dan ketika menghitung interval kepercayaan di sekitar pengukuran (data tidak disediakan tetapi disimpulkan) cenderung acak . Mengingat kurangnya data dunia nyata (atau bahkan simulasi yang masuk akal), ini adalah kertas kosong. Saya pribadi telah terlibat dalam analisis ribuan pengklasifikasi di antara ribuan pasien (dengan derajat kebebasan yang memadai). Dalam konteks itu, argumennya tidak masuk akal.

Ia juga rentan terhadap superlatif (bukan pertanda baik dalam konteks apa pun), dan membuat generalisasi yang tidak didukung, misalnya, biaya tidak dapat diketahui. Dalam kedokteran, ada biaya yang diterima, seperti 10% nilai prediktif positif untuk tes skrining, dan $ 100.000 per tahun yang disesuaikan dengan kualitas untuk intervensi terapeutik. Saya merasa sulit untuk percaya bahwa dalam penilaian kredit, biaya tidak dipahami dengan baik. Jika dia mengatakan (tidak jelas) bahwa masing-masing individu positif palsu dan negatif palsu membawa biaya yang berbeda, sementara itu adalah topik yang sangat menarik, itu tidak menyerupai pengklasifikasi biner.

Jika maksudnya adalah bahwa ROC penting, maka bagi pengguna yang canggih, itu sudah jelas, dan pengguna yang tidak canggih memiliki banyak hal yang perlu dikhawatirkan, misalnya, memasukkan prevalensi ke dalam nilai prediksi positif dan negatif.

Akhirnya, saya bingung untuk memahami bagaimana berbagai pengklasifikasi tidak dapat dinilai berdasarkan berbagai, cut-off dunia nyata ditentukan oleh penggunaan klinis (atau keuangan) dari model. Jelas, cut-off yang berbeda akan dipilih untuk masing-masing model. Model tidak akan dibandingkan hanya berdasarkan AUC. Pengklasifikasi tidak penting, tetapi bentuk kurva tidak.

— pengguna162905
sumber

-1

Bagi saya, intinya adalah bahwa sementara C-statistik (AUC) mungkin bermasalah ketika membandingkan model dengan variabel independen yang berbeda (analog dengan apa yang disebut Tangan sebagai "pengklasifikasi"), itu masih berguna dalam aplikasi lain. Misalnya, studi validasi di mana model yang sama dibandingkan di seluruh populasi studi yang berbeda (kumpulan data). Jika suatu model atau indeks risiko / skor terbukti sangat diskriminatif dalam satu populasi, tetapi tidak pada populasi lain, ini bisa berarti menunjukkan bahwa itu bukan alat yang sangat baik secara umum, tetapi mungkin dalam kasus tertentu.

— Dave
sumber

R^{2}

$R^2$