Saya tahu bahwa Residual Network (ResNet) membuatnya inisialisasi normal menjadi populer. Dalam ResNet, inisialisasi normal He digunakan , sedangkan lapisan pertama menggunakan inisialisasi seragam He.
Saya telah melihat melalui kertas ResNet dan kertas "Delving Deep into Rectifiers" (Dia menginisialisasi kertas), tetapi saya belum menemukan penyebutan pada init normal vs seragam init.
Juga:
Normalisasi Batch memungkinkan kita untuk menggunakan tingkat pembelajaran yang jauh lebih tinggi dan kurang berhati-hati tentang inisialisasi.
Dalam abstrak makalah Normalisasi Batch, dikatakan bahwa Normalisasi Batch memungkinkan kita untuk kurang berhati-hati dalam inisialisasi.
ResNet sendiri masih peduli kapan harus menggunakan init normal vs seragam init (bukan hanya pergi dengan init seragam).
Begitu:
- Kapan menggunakan (He atau Glorot) inisialisasi terdistribusi normal di atas inisialisasi seragam?
- Apa efek inisialisasi terdistribusi normal dengan Normalisasi Batch?
Catatan samping:
- Itu berima untuk menggunakan init normal dengan Normalisasi Batch, tapi saya belum menemukan kertas untuk mendukung fakta ini.
- Saya tahu bahwa ResNet menggunakan Dia init lebih dari Glorot init karena Dia init melakukan lebih baik pada jaringan yang dalam.
- Saya sudah mengerti tentang Glorot init vs He init .
- Pertanyaan saya adalah tentang Normal vs Uniform init.