Saya mengalami kesulitan memahami kurva ROC.
Apakah ada keuntungan / peningkatan di area di bawah kurva ROC jika saya membangun model yang berbeda dari setiap subset unik dari set pelatihan dan menggunakannya untuk menghasilkan probabilitas? Sebagai contoh, jika memiliki nilai-nilai { a , a , a , a , b , b , b , b } , dan saya membangun model yang A dengan menggunakan suatu dari nilai-nilai 1-4 dari y dan nilai-nilai 8-9 dari y dan membangun model B dengan menggunakan data kereta tetap. Akhirnya, hasilkan probabilitas. Setiap pemikiran / komentar akan sangat dihargai.
Berikut ini adalah kode r untuk penjelasan yang lebih baik untuk pertanyaan saya:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Jadi pertanyaan saya adalah, area di bawah ROC kurva pred_combine
vs pred_full
.