Jaringan backprop yang sepenuhnya terhubung (setidaknya lapisan ke lapisan dengan lebih dari 2 lapisan tersembunyi) adalah pembelajar universal. Sayangnya, mereka sering lambat dipelajari dan cenderung terlalu pas atau memiliki generalisasi yang canggung.
Dari bermain-main dengan jaringan ini, saya telah mengamati bahwa pemangkasan beberapa tepi (sehingga beratnya nol dan tidak mungkin berubah) cenderung membuat jaringan belajar lebih cepat dan menggeneralisasi lebih baik. Apakah ada alasan untuk ini? Apakah hanya karena penurunan dimensi ruang pencarian bobot, atau adakah alasan yang lebih halus?
Juga, apakah generalisasi yang lebih baik merupakan artefak dari masalah 'alami' yang saya lihat?