Normalisasi Batch dijelaskan dalam makalah ini sebagai normalisasi input ke fungsi aktivasi dengan skala dan variabel bergeser dan . Makalah ini terutama menjelaskan menggunakan fungsi aktivasi sigmoid, yang masuk akal. Namun, bagi saya tampaknya memberi makan input dari distribusi normal yang dihasilkan oleh normalisasi batch menjadi fungsi aktivasi ReLU dari berisiko jika tidak belajar untuk menggeser sebagian besar input melewati 0 sehingga ReLU tidak kehilangan informasi input. Yaitu jika input ke ReLU hanya standar dinormalisasi, kami akan kehilangan banyak informasi kami di bawah 0. Apakah ada jaminan atau inisialisasi dariitu akan menjamin bahwa kami tidak kehilangan informasi ini? Apakah saya kehilangan sesuatu dengan cara pengoperasian BN dan ReLU bekerja?