Dropout sebenarnya tidak menghilangkan neuron, hanya saja neuron-neuron tersebut tidak memainkan peran apa pun (jangan diaktifkan) untuk kumpulan data yang diberikan.
Contoh - Misalkan ada jalan 8 jalur - Ketika truk datang, mereka melewati jalur 1,2,4,6,7, ketika mobil datang, mereka melewati jalur 2,3,4,7,8 dan ketika sepeda datang , mereka melewati jalur 1,2,5,8. Jadi, terlepas dari kendaraan apa pun, semua jalur ada di sana, tetapi hanya beberapa yang digunakan.
Demikian pula, semua neuron digunakan dalam seluruh model, tetapi hanya sebagian neuron yang diaktifkan untuk kumpulan data tertentu. Dan model tidak ditebang nanti, kompleksitas model tetap seperti apa adanya.
Mengapa menggunakan dropout?
Seperti yang diberikan dalam buku pembelajaran Deep oleh Ian Goodfellow,
dropout lebih efektif daripada regulator standar komputasi murah lainnya, seperti pembusukan berat badan, kendala norma filter dan regularisasi aktivitas yang jarang.
Dia juga mengatakan-
Salah satu keuntungan dari putus sekolah adalah sangat murah secara komputasi.
Keuntungan penting lain dari putus sekolah adalah bahwa ia tidak secara signifikan membatasi jenis model atau prosedur pelatihan yang dapat digunakan. Ini bekerja dengan baik dengan hampir semua model yang menggunakan representasi terdistribusi dan dapat dilatih dengan penurunan gradien stokastik. Ini termasuk jaringan saraf umpan maju, model probabilistik seperti mesin Boltzmann terbatas (Srivastava et al., 2014), dan jaringan saraf berulang (Bayer dan Osendorfer, 2014; Pascanu et al., 2014a).
Buku ini mengatakan-
Gagasan intinya adalah bahwa mengenalkan noise pada nilai output suatu layer dapat memecah pola kejadian yang tidak signifikan, yang jaringan akan mulai menghafal jika tidak ada noise.