Pertanyaan
Saya berjuang untuk memahami bagaimana prediksi disimpan dalam interval ketika melakukan klasifikasi biner dengan Gradient Boosting.
Asumsikan kita sedang mengerjakan masalah klasifikasi biner, dan fungsi tujuan kita adalah hilangnya log, , di mana adalah variabel target dan adalah model kami saat ini.y ∈ { 0 , 1 } H
Saat melatih pembelajar lemah berikutnya sedemikian rupa sehingga model baru kami adalah , mekanisme apa yang seharusnya menjaga ? Atau, mungkin pertanyaan yang lebih relevan, apakah ada mekanisme seperti itu?H i = H i - 1 + h i H i ∈ [ 0 , 1 ]
Informasi lebih lanjut tentang apa yang saya lakukan
Saya mencoba menerapkan peningkatan gradien, menggunakan pohon regresi. Apa yang saya lakukan untuk menghindarinya adalah mengalikan dengan faktor , sehingga tidak pergi di bawah nol atau di atas satu, dan saya memilih dalam kisaran ini yang meminimalkan fungsi kerugian. c ∈ [ 0 , c max ] H + c max h c
Ini membawa masalah berikut: Setelah beberapa putaran, saya punya satu titik yang diklasifikasikan sempurna, dan split terbaik yang tersedia untuk mendorong classifier ke arah gradien ingin mendorong titik ini di atas satu, yang saya pastikan tidak terjadi oleh pengaturan . Dengan demikian semua iterasi berikutnya akan memilih pemisahan yang sama dan .c = 0
Saya mencoba praktik regularisasi umum
- Mengurangi tingkat belajar dengan mengalikan dengan . Ini hanya menunda masalah.μ = 0,01
- Subsampling ruang fitur, tetapi beberapa poin sangat mudah untuk diklasifikasikan, mereka menandai hampir setiap kotak di "apakah ini positif?" formulir, dan hampir setiap "perpecahan yang baik" menunjukkan perilaku ini.
Saya pikir ini bukan masalah parameter, dan harus ada cara yang lebih baik untuk memperbaikinya. Saya tidak mengabaikan kemungkinan bahwa implementasi saya rusak, tetapi saya tidak menemukan adanya masalah untuk mengatasi masalah ini.
Apa yang kita manipulasi, dalam konteks kerugian logistik, harus menjadi probabilitas, jadi bagaimana kita menghindarinya?
Intuisi saya adalah menempatkan model yang sedang kita bangun, , dalam fungsi sigmoid sedemikian rupa sehingga dibatasi menjadi , dan saya kira itu akan berhasil, tetapi saya ingin tahu apakah ada solusi lain. Karena meningkatkan gradien tampaknya berhasil digunakan dalam tugas klasifikasi, solusi "benar" (yaitu, dengan justifikasi) harus ada.[ 0 , 1 ]