Menurut tutorial tentang pembelajaran yang mendalam ini , pembusukan berat badan (regularisasi) biasanya tidak diterapkan pada istilah bias b mengapa?
Apa makna (intuisi) di baliknya?
Menurut tutorial tentang pembelajaran yang mendalam ini , pembusukan berat badan (regularisasi) biasanya tidak diterapkan pada istilah bias b mengapa?
Apa makna (intuisi) di baliknya?
Jawaban:
Overfitting biasanya membutuhkan output model agar peka terhadap perubahan kecil pada data input (yaitu untuk menginterpolasi nilai target secara tepat, Anda cenderung membutuhkan banyak kelengkungan dalam fungsi yang dipasang). Parameter bias tidak berkontribusi pada kelengkungan model, jadi biasanya ada gunanya mengaturnya juga.
Motivasi di balik L2 (atau L1) adalah bahwa dengan membatasi bobot, membatasi jaringan, Anda cenderung untuk tidak berpakaian berlebihan. Tidak masuk akal untuk membatasi bobot bias karena bias ditetapkan (misalnya b = 1) sehingga bekerja seperti interseptor neuron, yang masuk akal untuk diberikan fleksibilitas yang lebih tinggi.
Saya ingin menambahkan bahwa istilah bias sering diinisialisasi dengan rata-rata 1
daripada rata-rata 0
, jadi kita mungkin ingin mengaturnya dengan cara agar tidak terlalu jauh dari nilai konstan 1
seperti melakukan 1/2*(bias-1)^2
daripada melakukan 1/2*(bias)^2
.
Mungkin mengganti -1
bagian itu dengan mengurangi rata-rata bias bisa membantu, mungkin rata-rata per-lapisan atau keseluruhan. Namun ini hanya hipotesis yang saya lakukan (tentang substraksi rata-rata).
Ini semua tergantung pada fungsi aktivasi juga. Misalnya: sigmoids mungkin buruk di sini untuk menghilangkan gradien jika bias diatur ke offset konstan tinggi.
Tutorial mengatakan "menerapkan penurunan berat badan ke unit bias biasanya hanya membuat perbedaan kecil ke jaringan akhir", jadi jika itu tidak membantu, maka Anda dapat berhenti melakukannya untuk menghilangkan satu hiperparameter. Jika Anda berpikir mengatur offset akan membantu dalam pengaturan Anda, validasi silang; tidak ada salahnya mencoba.