Perspektif sejarah
Inisialisasi Xavier , awalnya diusulkan oleh Xavier Glorot dan Yoshua Bengio dalam "Memahami kesulitan pelatihan deep neuroforforward neural network" , adalah teknik inisialisasi bobot yang mencoba membuat varians dari output lapisan agar sama dengan varian inputnya . Gagasan ini ternyata sangat berguna dalam praktik. Tentu saja, inisialisasi ini tergantung pada fungsi aktivasi lapisan. Dan di makalah mereka, Glorot dan Bengio dianggap fungsi aktivasi sigmoid logistik , yang merupakan pilihan default pada saat itu.
Kemudian, aktivasi sigmoid dilampaui oleh ReLu, karena diizinkan untuk menyelesaikan masalah gradien pelenyapan / peledakan. Akibatnya, muncul teknik inisialisasi baru, yang menerapkan ide yang sama (menyeimbangkan varian aktivasi) untuk fungsi aktivasi baru ini. Itu diusulkan oleh Kaiming He at al dalam "Delving Deep into Rectifiers: Melampaui Kinerja Level Manusia pada Klasifikasi ImageNet" , dan sekarang sering disebut sebagai inisialisasi He .
Dalam tensorflow, inisialisasi He diimplementasikan dalam variance_scaling_initializer()
fungsi (yang, pada kenyataannya, merupakan inisialisasi yang lebih umum, tetapi secara default melakukan inisialisasi He), sedangkan inisialisasi Xavier secara logis xavier_initializer()
.
Ringkasan
Singkatnya, perbedaan utama bagi praktisi pembelajaran mesin adalah sebagai berikut:
- Inisialisasi dia berfungsi lebih baik untuk lapisan dengan aktivasi ReLu .
- Inisialisasi Xavier bekerja lebih baik untuk lapisan dengan aktivasi sigmoid .