Latar Belakang:
di xgboost yang iterasi mencoba untuk menyesuaikan pohon atas segala contoh yang meminimalkan tujuan berikut:f t n
di mana adalah urutan pertama dan kedua, di atas estimasi terbaik kami sebelumnya (dari iterasi ):y t - 1
dan adalah fungsi kerugian kita.
Pertanyaannya (akhirnya):
Ketika membangun dan mempertimbangkan fitur spesifik dalam pemisahan tertentu, mereka menggunakan heuristik berikut untuk menilai hanya beberapa kandidat yang terpecah: Mereka mengurutkan semua contoh dengan mereka , melewati daftar yang diurutkan dan menjumlahkan turunan kedua . Mereka menganggap kandidat yang terbelah hanya ketika jumlah berubah lebih dari . Mengapa demikian??? k x k h i ϵ
Penjelasan yang mereka berikan membuat saya terhindar:
Mereka mengklaim kita dapat menulis ulang persamaan sebelumnya seperti ini:
dan saya gagal mengikuti aljabar - dapatkah Anda menunjukkan mengapa itu sama?
Dan kemudian mereka mengklaim bahwa "ini persis kerugian kuadrat tertimbang dengan label dan bobot " - pernyataan yang saya setujui, tapi saya tidak mengerti bagaimana kaitannya dengan algoritma calon split yang mereka gunakan ...h i
Terima kasih dan maaf jika ini terlalu lama untuk forum ini.