Apakah ada cara untuk mendapatkan skor kepercayaan (kita dapat menyebutnya juga nilai kepercayaan atau kemungkinan) untuk setiap nilai yang diprediksi saat menggunakan algoritma seperti Random Forests atau Extreme Gradient Boosting (XGBoost)? Katakanlah skor kepercayaan ini akan berkisar dari 0 hingga 1 dan menunjukkan seberapa yakin saya tentang prediksi tertentu .
Dari apa yang saya temukan di internet tentang kepercayaan, biasanya diukur dengan interval. Berikut adalah contoh interval kepercayaan yang dihitung dengan confpred
fungsi dari lava
perpustakaan:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
Output kode hanya memberikan interval kepercayaan:
Ada juga perpustakaan conformal
, tetapi saya juga digunakan untuk interval kepercayaan dalam regresi: "konformal memungkinkan perhitungan kesalahan prediksi dalam kerangka prediksi konformal: (i) p.nilai untuk klasifikasi, dan (ii) interval kepercayaan untuk regresi. "
Jadi adakah caranya:
Untuk mendapatkan nilai kepercayaan untuk setiap prediksi dalam setiap masalah regresi?
Jika tidak ada cara, apakah akan berarti untuk digunakan untuk setiap pengamatan sebagai skor kepercayaan ini:
jarak antara batas atas dan bawah dari interval kepercayaan (seperti pada contoh output di atas). Jadi, dalam hal ini, semakin lebar interval kepercayaan, semakin banyak ketidakpastian (tetapi ini tidak memperhitungkan di mana dalam interval adalah nilai aktual)
randomForestCI
paket oleh Stephan Wager, dan makalah terkait dengan Susan Athey. Catatan itu hanya memberikan CIs tetapi Anda dapat membuat interval prediksi darinya dengan menghitung varians residual.