Tidak ada istilah regularisasi untuk unit bias dalam jaringan saraf

13

Menurut tutorial tentang pembelajaran yang mendalam ini , pembusukan berat badan (regularisasi) biasanya tidak diterapkan pada istilah bias b mengapa?

Apa makna (intuisi) di baliknya?

— Harshit
sumber

Saya pikir saya telah melihat pertanyaan yang sangat mirip sebelumnya, saya tidak bisa menemukannya ... Mungkin Anda harus meninjau pertanyaan terkait dan akan menemukan jawabannya. Juga, mungkin ini bisa agak berguna.

— Richard Hardy

13

Overfitting biasanya membutuhkan output model agar peka terhadap perubahan kecil pada data input (yaitu untuk menginterpolasi nilai target secara tepat, Anda cenderung membutuhkan banyak kelengkungan dalam fungsi yang dipasang). Parameter bias tidak berkontribusi pada kelengkungan model, jadi biasanya ada gunanya mengaturnya juga.

— Dikran Marsupial
sumber

5

Motivasi di balik L2 (atau L1) adalah bahwa dengan membatasi bobot, membatasi jaringan, Anda cenderung untuk tidak berpakaian berlebihan. Tidak masuk akal untuk membatasi bobot bias karena bias ditetapkan (misalnya b = 1) sehingga bekerja seperti interseptor neuron, yang masuk akal untuk diberikan fleksibilitas yang lebih tinggi.

— Ramalho
sumber

1

Saya ingin menambahkan bahwa istilah bias sering diinisialisasi dengan rata-rata 1daripada rata-rata 0, jadi kita mungkin ingin mengaturnya dengan cara agar tidak terlalu jauh dari nilai konstan 1seperti melakukan 1/2*(bias-1)^2daripada melakukan 1/2*(bias)^2.

Mungkin mengganti -1bagian itu dengan mengurangi rata-rata bias bisa membantu, mungkin rata-rata per-lapisan atau keseluruhan. Namun ini hanya hipotesis yang saya lakukan (tentang substraksi rata-rata).

Ini semua tergantung pada fungsi aktivasi juga. Misalnya: sigmoids mungkin buruk di sini untuk menghilangkan gradien jika bias diatur ke offset konstan tinggi.

— Guillaume Chevalier
sumber

0

Tutorial mengatakan "menerapkan penurunan berat badan ke unit bias biasanya hanya membuat perbedaan kecil ke jaringan akhir", jadi jika itu tidak membantu, maka Anda dapat berhenti melakukannya untuk menghilangkan satu hiperparameter. Jika Anda berpikir mengatur offset akan membantu dalam pengaturan Anda, validasi silang; tidak ada salahnya mencoba.

— Emre
sumber