Wojtek J. Krzanowski dan David J. Hand Kurva ROC untuk Data Berkelanjutan (2009) adalah referensi yang bagus untuk semua hal yang terkait dengan kurva ROC. Ia mengumpulkan sejumlah hasil dalam basis literatur yang sangat luas, yang sering menggunakan terminologi berbeda untuk membahas topik yang sama.
Selain itu, buku ini menawarkan komentar dan perbandingan metode alternatif yang telah diturunkan untuk memperkirakan jumlah yang sama, dan menunjukkan bahwa beberapa metode membuat asumsi yang mungkin tidak dapat dipertahankan dalam konteks tertentu. Ini adalah salah satu konteksnya; jawaban lain melaporkan metode Hanley & McNeil, yang mengasumsikan model binormal untuk distribusi skor, yang mungkin tidak sesuai dalam kasus di mana distribusi skor kelas tidak (mendekati) normal. Asumsi skor yang didistribusikan secara normal tampaknya sangat tidak sesuai dalam konteks pembelajaran mesin modern , model umum yang umum seperti xgboost cenderung menghasilkan skor dengan distribusi "bathtub" untuk tugas-tugas klasifikasi (yaitu, distribusi dengan kepadatan tinggi pada ekstrem dekat 0 dan 1). ).
Pertanyaan 1 - AUC
Bagian 6.3 membahas perbandingan ROC AUC untuk dua kurva ROC (hal. 113-114). Secara khusus, pemahaman saya adalah bahwa kedua model ini berkorelasi, sehingga informasi tentang bagaimana menghitung sangat penting di sini; jika tidak, statistik pengujian Anda akan menjadi bias karena tidak memperhitungkan kontribusi korelasi.r
Untuk kasus kurva ROC tidak berkorelasi tidak didasarkan pada asumsi distribusi parametrik, statistik untuk tets dan interval kepercayaan membandingkan AUC dapat langsung berdasarkan estimasi dan ^ AUC 2 dari nilai-nilai AUC, dan perkiraan standar deviasi mereka S 1 dan S 2 , seperti yang diberikan pada bagian 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Untuk memperluas pengujian tersebut ke kasus di mana data yang sama digunakan untuk kedua pengklasifikasi, kita perlu memperhitungkan korelasi antara perkiraan AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
di mana adalah estimasi korelasi ini. Hanley dan McNeil (1983) membuat ekstensi seperti itu, mendasarkan analisis mereka pada kasus binormal, tetapi hanya memberikan tabel yang menunjukkan bagaimana menghitung estimasi koefisien korelasi r dari korelasi r P dari dua pengklasifikasi dalam kelas P, dan korelasi dari r n dari dua pengklasifikasi dalam kelas n, mengatakan bahwa derivasi matematika yang tersedia atas permintaan. Berbagai penulis lain (misalnya Zou, 2001) telah mengembangkan tes berdasarkan model binormal, dengan asumsi bahwa transformasi yang tepat dapat ditemukan yang secara bersamaan akan mengubah distribusi skor kelas P dan N menjadi normal.rrrPrn
DeLong et al (1988) mengambil keuntungan dari identitas antara AUC dan statistik uji Mann-Whitney, bersama dengan hasil dari teori -statistics umum karena Sen (1960), untuk memperoleh perkiraan korelasi antara AUCs yang tidak bergantung pada asumsi binormal. Bahkan, DeLong et al (1988) mempresentasikan hasil berikut untuk perbandingan antara k ≥ 2 pengklasifikasi.Uk≥2
Dalam Bagian 3.5.1, kami menunjukkan bahwa area di bawah kurva ROC empiris sama dengan statistik Mann-Whitney , dan diberikan olehU
manasPi,i=1,…,nPadalah skor untuk objek kelasPdansNj,j=1,…,nNadalah skor untuk objek kelasNdalam sampel. Misalkan kita memilikipengklasifikasik, menghasilkan skors r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk dan s r P i , j = 1 , ... , n P [Saya memperbaiki kesalahan pengindeksan di bagian ini - Sycorax], dan ^ A U C r , r = 1 , ... , k . MenetapkansrNj, j = 1 ... nNsrPsaya, j = 1 , … , nPA UCˆr, r = 1 , … , k
dan
V r 01 =1
Vr10= 1nN∑j = 1nN[ Saya( srPsaya> srNj) + 12saya( srPsaya= srNj) ] , i = 1 , … , nP
Vr01= 1nP∑i = 1nP[ Saya( srPsaya> srNj) + 12saya( srPsaya= srNj) ] , j = 1 , … , nN
selanjutnya, menentukan matriks W 10 dengan ( r , s ) th unsur
w r , s 10 = 1k × kW10( r , s )
dank×kmatriksW01dengan(r,s)elemen
w r
wr , s10= 1nP- 1∑i = 1nP[ Vr10( sPsaya) - A UCˆr] [ Vs10( sPsaya) - A UCˆs]
k × kW01( r , s )
Kemudian matriks kovarians terestimasi untuk vektor( ^ A U C 1,…, ^ A U C kwr , s01= 1nN- 1∑i = 1nN[ Vr01( sNsaya) - A UCˆr] [ Vs01( sNsaya) - A UCˆs]
dari estimasi area di bawah kurva adalah
W = 1( A UCˆ1, ... , A UCˆk)dengan elemenwr,s. Ini adalah generalisasi dari hasil untuk estimasi varians dari AUC terestimasi tunggal, juga diberikan dalam bagian 3.5.1. Dalam kasus dua pengklasifikasi, korelasi estiamtedrantara AUCs diperkirakan demikian diberikan olehw1,2W = 1nPW10+ 1nNW01
wr , sr yang dapat digunakan dalamzdiatas.w1 , 2w1 , 1w2 , 2√z
Karena jawaban lain memberikan ekspresi Hanley dan McNeil untuk penaksir varian AUC, di sini saya akan mereproduksi penaksir DeLong dari hal. 68:
Pendekatan alternatif karena DeLong et al (1988) dan dicontohkan oleh Pepe (2003) mungkin memberikan perkiraan yang lebih sederhana, dan yang memperkenalkan konsep ekstra berguna dari nilai penempatan. Nilai penempatan skor dengan mengacu pada populasi yang ditentukan adalah fungsi survivor populasi pada s . Ini nilai penempatan untuk s dalam populasi N adalah 1 - F ( s ) dan untuk s dalam populasi P adalah 1 - G ( s ) . Estimasi empiris dari nilai penempatan diberikan oleh proporsi yang jelas. Dengan demikian nilai penempatan pengamatan s Nsss1 - F( s )s1 - G ( s ) dalam populasi P dinotasikandengan P N i , adalah proporsi nilai sampel dari P yang melebihis N i , danvar(s N P i )adalah varian dari nilai penempatan masing-masing pengamatan dari N sehubungan dengan populasi P. ..sNsayasPNsayasNsayavar ( sNPsaya)
Estimasi DeLong et al (1988) tentang varians diberikan dalam hal varians ini:
s 2 ( ^ A U C ) = 1A UCˆ
s2( A UCˆ) = 1nPvar ( sNPsaya) + 1nNvar ( sPNsaya)
FGFG
Zz
Ini adalah garis besar tingkat tinggi yang disederhanakan tentang cara kerja pengujian hipotesis:
Pengujian, dalam kata-kata Anda, "apakah satu classifier secara signifikan lebih baik daripada yang lain" dapat diulangi sebagai pengujian hipotesis nol bahwa kedua model memiliki AUC yang secara statistik sama dengan hipotesis alternatif bahwa statistik tidak sama.
Ini adalah tes dua sisi.
Kami menolak hipotesis nol jika statistik pengujian berada di wilayah kritis dari distribusi referensi, yang merupakan distribusi normal standar dalam kasus ini.
αz> 1,96z< - 1,96α / 21 - α / 2
Pertanyaan 1 - Sensitivitas dan Spesifisitas
t
sensitivitas = t p1 - spesifisitas = fhal= P ( sP> t )= P ( sN> t )
Poin utama adalah mengembangkan tes yang tepat mengingat bahwa dua proporsi sampel akan dikorelasikan (karena Anda telah menerapkan dua model pada data tes yang sama). Ini ditujukan pada hal. 111.
t pfhalt( t hal1- t p2) / s12t psayasayas212t p1t p2
t p1t p2
N
t p1= t hal2t p1≠ t p2
Model 2 Positif pada tModel 2 Negatif pada tModel 1 Positif pada tSebuahcModel 1 Negatif pada tbd
Sebuahbcd= ∑i = 1nPsaya( s1Psaya> t ) ⋅ I( s2Psaya> t )= ∑i = 1nPsaya( s1Psaya≤ t ) ⋅ I( s2Psaya> t )= ∑i = 1nPsaya( s1Psaya> t ) ⋅ I( s2Psaya≤ t )= ∑i = 1nPsaya( s1Psaya≤ t ) ⋅ I( s2Psaya≤ t )
M.= ( b - c )2b + c
χ21α = 95 %M.> 3.841459
srPsayasrNj
Pertanyaan 2
Tampaknya cukup untuk menggabungkan hasil dengan rata-rata nilai prediksi untuk setiap responden, sehingga untuk setiap model Anda memiliki 1 vektor dari 100 nilai prediksi rata-rata. Kemudian hitung statistik ROC AUC, sensitivitas dan spesifisitas seperti biasa, seolah-olah model aslinya tidak ada. Ini mencerminkan strategi pemodelan yang memperlakukan masing-masing model 5 responden sebagai salah satu "panitia" model, semacam ansambel.