Sejauh yang saya mengerti, norma batch menormalkan semua fitur input ke layer ke distribusi normal unit, . Mean dan varians diperkirakan dengan mengukur nilainya untuk mini-batch saat ini.
Setelah normalisasi input diskalakan dan digeser dengan nilai skalar:
(Koreksi saya jika saya salah di sini - di sinilah saya mulai agak tidak yakin.)
dan adalah nilai skalar dan ada pasangan masing-masing untuk setiap lapisan batch-normed. Mereka dipelajari bersama dengan bobot menggunakan backprop dan SGD.
Pertanyaan saya adalah, bukankah parameter ini berlebihan karena input dapat diskalakan dan digeser dengan cara apa pun oleh bobot pada lapisan itu sendiri. Dengan kata lain, jika
dan
kemudian
di mana dan .
Jadi apa gunanya menambahkan mereka dari jaringan yang sudah mampu mempelajari skala dan pergeseran? Atau apakah saya benar-benar salah paham?