The tingkat belajar parameter ( ) di Gradient Meningkatkan menyusut kontribusi masing-masing model dasar baru -typically sebuah pohon yang dangkal yang ditambahkan dalam seri. Itu terbukti secara dramatis meningkatkan akurasi set tes, yang dapat dimengerti karena dengan langkah-langkah yang lebih kecil, minimum fungsi kerugian dapat dicapai lebih tepat.
Saya tidak mengerti mengapa tingkat pembelajaran dianggap sebagai parameter regularisasi ? Mengutip Elemen Pembelajaran Statistik , bagian 10.12.1, hal.364:
Mengontrol jumlah pohon bukan satu-satunya strategi regularisasi yang mungkin. Seperti halnya regresi ridge dan jaringan saraf, teknik penyusutan dapat digunakan juga. Nilai-nilai yang lebih kecil dari (lebih penyusutan) mengakibatkan risiko pelatihan yang lebih besar untuk jumlah yang sama dari iterasi M . Dengan demikian, baik V dan M mengendalikan risiko prediksi pada data pelatihan.
Regularisasi berarti "cara untuk menghindari overfitting", jadi jelas bahwa jumlah iterasi sangat penting dalam hal itu ( M yang terlalu tinggi menyebabkan overfitting). Tapi:
Nilai-nilai yang lebih kecil dari (lebih penyusutan) mengakibatkan risiko pelatihan yang lebih besar untuk jumlah yang sama dari iterasi M .
hanya berarti bahwa dengan tingkat belajar yang rendah, diperlukan lebih banyak iterasi untuk mencapai akurasi yang sama pada set pelatihan. Jadi bagaimana hubungannya dengan overfitting?