Dengan asumsi normalisasi data yang cukup masuk akal, harapan bobot harus nol atau dekat dengannya. Maka mungkin masuk akal untuk mengatur semua bobot awal menjadi nol karena bobot awal positif akan semakin jauh jika bobot sebenarnya dan sebaliknya visa. Namun, ini tidak berhasil. Jika semua bobotnya sama, mereka semua akan memiliki kesalahan yang sama dan model tidak akan belajar apa pun - tidak ada sumber asimetri antara neuron.
Apa yang bisa kita lakukan, sebaliknya, adalah menjaga bobotnya sangat dekat dengan nol tetapi membuatnya berbeda dengan menginisialisasi mereka ke angka kecil, bukan nol. Inilah yang disarankan dalam tutorial yang Anda tautkan. Ini memiliki keuntungan yang sama dari inisialisasi semua-nol dalam hal itu dekat dengan nilai harapan 'tebakan terbaik' tetapi simetri juga telah cukup rusak untuk algoritma untuk bekerja.
Pendekatan ini memiliki masalah tambahan. Belum tentu benar bahwa angka yang lebih kecil akan bekerja lebih baik, terutama jika jaringan sarafnya dalam. Gradien yang dihitung dalam backpropagation sebanding dengan bobot; bobot yang sangat kecil menyebabkan gradien yang sangat kecil dan dapat menyebabkan jaringan membutuhkan banyak, lebih lama untuk dilatih atau tidak pernah selesai.
sqrt(d)d[ - 1d√, 1d√]