Dalam makalah Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Pergeseran Kovarian Internal (di sini ) Sebelum menjelaskan proses normalisasi bets, makalah ini mencoba menjelaskan masalah yang terkait dengan (saya tidak mendapatkan apa masalah yang sebenarnya dibahas di sini) .
kutipan dari bagian 2, para 2:
Kami dapat mempertimbangkan pemutihan aktivasi di setiap langkah pelatihan atau pada beberapa interval, baik dengan memodifikasi jaringan secara langsung atau dengan mengubah parameter algoritma pengoptimalan agar bergantung pada nilai aktivasi jaringan (Wiesler et al., 2014; Raiko et al., 2012 ; Povey et al., 2014; Desjardins & Kavukcuoglu). Namun, jika modifikasi ini diselingi dengan langkah-langkah optimasi, maka langkah penurunan gradien dapat mencoba untuk memperbarui parameter dengan cara yang mengharuskan normalisasi diperbarui, yang mengurangi efek langkah gradien. Sebagai contoh, pertimbangkan layer dengan input u yang menambahkan bias yang dipelajari, dan menormalkan hasilnya dengan mengurangi rata-rata aktivasi yang dihitung dari data pelatihan: dimana adalah himpunan nilai selama set pelatihan, dan .
Jika langkah gradient descent mengabaikan ketergantungan E [x] pada b, maka itu akan memperbarui dimana . Kemudian
.Dengan demikian, kombinasi dari pembaruan ke b dan perubahan normalisasi berikutnya tidak menyebabkan perubahan pada output lapisan atau, akibatnya, hilangnya. Saat pelatihan berlanjut, b akan tumbuh tanpa batas waktu sementara kerugiannya tetap. Masalah ini bisa menjadi lebih buruk jika normalisasi tidak hanya pusat tetapi juga skala aktivasi.
di sini adalah pemahaman saya tentang literatur:
Kami memiliki batch ukuran N (Satu batch pelatihan)
Biarkan ada dua lapisan tersembunyi yang saling terhubung satu sama lain (L1 dan L2) yang dihubungkan oleh parameter dan
output yang keluar dari L1 adalah x1
(Di sinilah literatur di atas dimulai. dimensi u adalah MxN) (M adalah jumlah unit dalam L2)
(dimensi b = dimensi x = dimensi u = MxN)
Sekarang sebelum memasukkan x ke dalam L2 kami memusatkannya dengan mengurangi rata-rata dari setiap entri ()
Kami menghitung kehilangan dan backpropogate gradien dan memperbarui hanya lapisan ini untuk memberikan tes kewarasan. Baru =
Kami menjalankannya lagi di batch yang sama dengan yang diperbarui
ulangi 3 dan 4
(dimensi b, = dimensi x = dimensi u = MxN)
Sekarang sebelum memasukkan x ke dalam L2 kami memusatkannya dengan mengurangi rata-rata dari setiap entri (). yang sama dengan apa yang dihitung sebelum memperbarui b dan karenanya memperbarui b harus berpengaruh pada pelatihan
Pertanyaan saya adalah dengan bagian dari kutipan ini:
"Jika langkah gradient descent mengabaikan ketergantungan E [x] pada b, maka itu akan diperbarui dimana . Kemudian
Kenapa
"