Ketika menginisialisasi bobot koneksi dalam jaringan saraf feedforward, penting untuk menginisialisasi mereka secara acak untuk menghindari simetri yang tidak dapat dipecahkan oleh algoritma pembelajaran.
Rekomendasi yang saya lihat di berbagai tempat (misalnya dalam tutorial MNIST TensorFlow ) adalah menggunakan distribusi normal terpotong menggunakan standar deviasi , di manaNadalah jumlah input ke lapisan neuron yang diberikan.
Saya percaya bahwa standar deviasi formula memastikan bahwa gradien backpropagated tidak larut atau menguatkan terlalu cepat. Tetapi saya tidak tahu mengapa kami menggunakan distribusi normal terpotong sebagai lawan dari distribusi normal biasa. Apakah itu untuk menghindari bobot outlier yang jarang?