Saya telah membaca banyak tentang jaringan saraf convoloutional dan bertanya-tanya bagaimana mereka menghindari masalah gradien menghilang. Saya tahu jaringan kepercayaan yang mendalam menumpuk auto-encoders tingkat tunggal atau jaringan dangkal pra-terlatih lainnya dan dengan demikian dapat menghindari masalah ini, tetapi saya tidak tahu bagaimana hal itu dihindari di CNN.
Menurut Wikipedia :
"Terlepas dari" masalah gradien hilang "yang disebutkan di atas," kekuatan pemrosesan GPU yang unggul membuat propagasi balik yang layak layak untuk jaringan saraf umpan jauh ke depan dengan banyak lapisan. "
Saya tidak mengerti mengapa pemrosesan GPU akan menghilangkan masalah ini?
GPU's are fast correlated with vanishing gradients
, saya bisa memahami logika cepat dengan bandwidth memori yang besar untuk memproses multiplikasi matriks multipel! tetapi bisakah Anda menjelaskan apa hubungannya dengan turunannya? Masalah gradien menghilang tampaknya melakukan lebih banyak dengan inisialisasi berat , bukan!