Saat ini saya menggunakan XGBoost untuk prediksi risiko, tampaknya melakukan pekerjaan yang baik di departemen klasifikasi biner tetapi output probabilitas jauh, yaitu, mengubah nilai fitur dalam pengamatan dengan jumlah yang sangat kecil dapat membuat probabilitas output melonjak dari 0,5 ke 0,99.
Saya hampir tidak melihat output di kisaran 0,6-0,8. Dalam semua kasus, probabilitasnya kurang dari 0,99 atau 1.
Saya mengetahui metode kalibrasi pasca pelatihan seperti Penskalaan Platt dan Koreksi Logistik, tetapi saya bertanya-tanya apakah ada sesuatu yang dapat saya atur dalam proses pelatihan XGBoost.
Saya menelepon XGBoost dari berbagai bahasa menggunakan FFI, jadi alangkah baiknya jika saya dapat memperbaiki masalah ini tanpa memperkenalkan perpustakaan kalibrasi lain, misalnya, mengubah metrik eval dari AUC ke log loss.
XGBoost
cukup kuat terhadap outlier, bila dibandingkan dengan metode vanilla lain seperti SVM
.