Bagaimana tepatnya DropOut bekerja dengan lapisan convolutional?

Dropout ( kertas , penjelasan ) mengatur output dari beberapa neuron ke nol. Jadi untuk MLP, Anda bisa memiliki arsitektur berikut untuk dataset bunga Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Ini akan bekerja seperti ini:

s o f t m a x (W_{3} \cdot \tanh (W_{2} \cdot mask (D, \tanh (W_{1} \cdot i n p u t_v e c t o r)))

$softmax(W_3 \cdot \tanh(W_2 \cdot \text{mask}(D, \tanh(W_1 \cdot input\_vector)))$

dengan , , , , (mengabaikan bias demi kesederhanaan). $input\_vector \in \mathbb{R}^{4 \times 1}$ $W_1 \in \mathbb{R}^{50 \times 4}$ $D \in \{0, 1\}^{50 \times 1}$ $W_2 \in \mathbb{R}^{20 \times 50}$ $W_3 \in \mathbb{R}^{20 \times 3}$

Dengan dan $D = (d)_{ij}$

d_{saya j} \sim B (1, hal = 0,5)

$d_{ij} \sim B(1, p=0.5)$

di mana operasi mengalikan titik dengan (lihat produk Hadamard ). $\text{mask}(D, M)$ $D$ $M$

Oleh karena itu kami hanya mengambil sampel matriks setiap kali dan dengan demikian dropout menjadi perkalian simpul dengan 0. $D$

Tetapi untuk CNN, tidak jelas bagi saya apa yang sebenarnya dikeluarkan. Saya dapat melihat tiga kemungkinan:

Menjatuhkan peta fitur lengkap (karenanya sebuah kernel)
Menjatuhkan satu elemen kernel (mengganti elemen kernel dengan 0)
Menjatuhkan satu elemen peta fitur

Silakan tambahkan referensi / kutipan untuk jawaban Anda.

Pikiran saya

Saya pikir Lasagne tidak (3) (lihat kode ). Ini mungkin yang paling sederhana untuk diterapkan. Namun, lebih dekat ke ide aslinya mungkin (1).

Tampaknya serupa untuk Caffe (lihat kode ). Untuk tensorflow, pengguna harus memutuskan ( kode - Saya tidak yakin apa yang terjadi ketika noise_shape=Nonedilewatkan).

Bagaimana seharusnya

(2) dan (3) tidak masuk akal karena akan menyebabkan jaringan menambah invarian ke posisi spasial, yang mungkin tidak diinginkan. Karenanya (1) adalah satu-satunya varian yang masuk akal. Tapi saya tidak yakin apa yang terjadi jika Anda menggunakan implementasi default.

dropout

— Martin Thoma
sumber

Saya telah mengajukan pertanyaan juga di grup pengguna Lasagne .

— Martin Thoma

Teman saya mencatat bahwa (2) dan (3) mungkin bukan ide yang baik karena mungkin memaksa jaringan untuk menyebarkan informasi secara spasial.

— Martin Thoma

$l$ $W^{(l+1)}$

Untuk lebih jelasnya, saya pikir bagian 3 dalam makalah ini mungkin membantu Anda: Max-pooling & Convolutional dropout . Secara khusus 3.2.

Ketika Anda menguji, Anda menggunakan semua node jaringan tetapi dengan bobot filter yang diskalakan oleh probabilitas penahan, seperti yang dijelaskan dalam makalah.

Jangan ragu untuk memperbaiki atau memperbaiki jawaban saya.

Semoga ini bisa membantu setidaknya sedikit.

— Leonard Aukea
sumber