XGboost - Pilihan dibuat oleh model

10

Saya menggunakan XGboost untuk memprediksi variabel target 2 kelas pada klaim asuransi. Saya memiliki model (pelatihan dengan validasi silang, penyetelan parameter hiper, dll ...) saya jalankan di dataset lain.

Pertanyaanku adalah :

adakah cara untuk mengetahui mengapa klaim yang diberikan telah dipengaruhi ke satu kelas yaitu fitur yang menjelaskan pilihan yang dibuat oleh model?

Tujuannya adalah untuk dapat membenarkan pilihan yang dibuat oleh mesin untuk manusia pihak ketiga.

Terima kasih atas jawaban anda.

xgboost

— Fabrice BOUCHAREL
sumber

7

Saya menyarankan Anda untuk menggunakan Shap . Ini menggunakan nilai-nilai Shapley (konsep yang dipinjam dari Game Theory) untuk menggambarkan perilaku model, dan dengan itu dapat menjelaskan prediksi tunggal.

Antarmuka grafisnya menggunakan Force Plots, seperti yang Anda lihat di bawah.

Bilah merah dibangun oleh fitur yang mengarahkan prediksi ke nilai positif, dan bilah biru oleh yang lain.

Dalam kasus Anda (sebuah classifier) angka dalam huruf tebal akan menjadi yang tepat sebelum fungsi sigmoid yang akan membatasi nilai output antara nol dan satu (satu kelas atau yang lain). Jadi jangan takut jika dalam beberapa kasus akan lebih besar dari satu, atau negatif.

Ukuran segmen mewakili seberapa banyak fitur yang berkontribusi pada prediksi, dan di bawah segmen Anda melihat nama fitur (mis. LSTAT) dan nilainya sebenarnya (mis. 4.98). Jadi, dalam hal ini, LSTAT adalah fitur rata-rata yang mengarahkan prediksi untuk elemen dataset tersebut ke nilai 24,41 (angka dalam huruf tebal).

Nikmati!

— Vincenzo Lavorini
sumber

9

Anda dapat menggunakan perpustakaan ELI5 untuk menjelaskan kontribusi fitur ke prediksi individu untuk model XGBoost.

Lihat Menjelaskan Prediksi dalam dokumen, disalin di bawah:

Untuk mendapatkan ide yang lebih baik tentang bagaimana classifier kami bekerja, mari kita periksa prediksi individu dengan eli5.show_prediction():
from eli5 import show_prediction
show_prediction(clf, valid_xs[1], vec=vec, show_feature_values=True)

— Imran
sumber

0

terima kasih atas jawabannya.

Paket R ini sepertinya melakukan pekerjaan:

https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211

— Fabrice BOUCHAREL
sumber