XGBoost untuk klasifikasi adalah model yang menggabungkan prinsip-prinsip pohon keputusan dan regresi logistik.
Fungsi regresi logistik menghitung probabilitas yang linear pada skala logit:
z=XwP(y=1|X)=11+exp(−z)
Tidak seperti regresi logistik, "fitur" dalam dibangun sebagai simpul terminal dari ansambel pohon keputusan - sehingga setiap baris mengumpulkan daun terminal untuk setiap sampel; barisnya adalah -hot vektor biner, untuk jumlah pohon. (Setiap pohon XGBoost dihasilkan berdasarkan algoritma tertentu, tetapi itu tidak relevan di sini.)XXTT
Ada kolom di , satu kolom untuk setiap simpul terminal. Tidak ada ekspresi untuk jumlah total terminal node, karena jumlah node dapat bervariasi di antara pohon (dan biasanya, menurut pengalaman saya).nX
Setiap daun di pohon memiliki "bobot" yang terkait. Berat itu dicatat dalam . Agar sesuai dengan , ada elemen dalam .wXnw
Atau, sebagai alternatif lain, peluang log untuk sampel adalah jumlah bobot daun terminalnya. Probabilitas sampel milik kelas 1 adalah transformasi invers-logit dari jumlah.