Saya melihat bagaimana menerapkan dropout pada jaringan saraf yang dalam, dan saya menemukan sesuatu yang berlawanan secara intuitif. Dalam fase maju, topeng aktivasi putus dengan tensor acak 1s dan 0s untuk memaksa net mempelajari rata-rata bobot. Ini membantu jaring untuk menggeneralisasi dengan lebih baik. Tetapi selama fase pembaruan dari gradient descent, aktivasi tidak ditutup-tutupi. Bagi saya ini tampaknya kontra intuitif. Jika saya menutupi aktivasi koneksi dengan dropout, mengapa saya tidak harus menutupi fase gradient descent?