Mengapa sqrt (6) digunakan untuk menghitung epsilon untuk inisialisasi acak jaringan saraf?

Dalam catatan kuliah 5 minggu untuk Andrew Ng's Coursera Machine Learning Class , rumus berikut diberikan untuk menghitung nilai digunakan untuk menginisialisasi dengan nilai acak: $\epsilon$ $\Theta$

Dalam latihan , klarifikasi lebih lanjut diberikan:

Salah satu strategi efektif untuk memilih adalah mendasarkannya pada jumlah unit dalam jaringan. Pilihan adalah , di mana dan adalah jumlah unit dalam lapisan yang berdekatan dengan . $\epsilon_{init}$ $\epsilon_{init}$ $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ $L_{in} = s_l$ $L_{out} = s_{l+1}$ $\Theta^{(l)}$

Mengapa konstanta digunakan di sini? Mengapa tidak , atau ? $\sqrt 6$ $\sqrt 5$ $\sqrt 7$ $\sqrt {6.1}$

machine-learning neural-networks random-generation

— Tom Hale
sumber

Saya percaya ini adalah inisialisasi normalisasi Xavier (diimplementasikan dalam beberapa kerangka kerja pembelajaran dalam misalnya Keras, Cafe, ...) dari Memahami kesulitan pelatihan deep neuroforforward neural network oleh Xavier Glorot & Yoshua Bengio.

Lihat persamaan 12, 15 dan 16 di kertas yang ditautkan: mereka bertujuan untuk memenuhi persamaan 12:

Var [W_{saya}] = \frac{2}{n_{saya} + n_{saya + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

dan varian RV seragam di $[-\epsilon,\epsilon]$ adalah $\epsilon^2/3$ (rata-rata nol, pdf = $1/(2\epsilon)$ begitu varians $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

— seanv507
sumber

Hmm, jadi kenapa gunakan

\sqrt{6}

$\sqrt 6$ dari pada

2

$2$ ?

— Tom Hale

Masukkan epsilon ke dalam rumus untuk varian variabel acak seragam di +/- x dan apa yang Anda dapatkan?

— seanv507

Doh! Saya sekarang melihat dalam formula (16) itu

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$ digunakan. Di mana Anda dapatkan

x^{2} / 3

$x^2 / 3$ dari meskipun?

— Tom Hale

menambahkan penjelasan untuk varian RV seragam ...

— seanv507