Berikut adalah utas diskusi (mulai Juli 2013) yang mengindikasikan bahwa mungkin ada beberapa masalah dengannya, tetapi hal itu dapat dilakukan.
Çağlar Gülçehre (dari lab Yoshua Bengio) mengatakan dia berhasil menggunakan teknik berikut dalam Pengetahuan Penting: Pentingnya Informasi Sebelumnya untuk Optimalisasi :
melatih DAE pertama seperti biasa, tetapi dengan penyearah di lapisan tersembunyi:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
meminimalkan cross-entropy atau hilangnya MSE, membandingkan g1 (f1 (rusak (x))) dan x. sigmoid bersifat opsional tergantung pada data.
latihlah DAE ke-2 dengan noise yang ditambahkan sebelum penyearah f1 dan gunakan unit rekonstruksi softplus dengan kehilangan MSE:
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
kecilkan∥f1(x)−g2(f2(rectifier(corrupt(a1(x)))))∥2+λ1∥W∥1+λ2∥W∥2
Xavier Glorot, juga dari lab Bengio, mengatakan ia melakukan hal yang sama kecuali mengganti dengan penalti "pada nilai aktivasi" (mungkin ?) Di kedua Adaptasi Domain untuk Klasifikasi Sentimen Skala Besar: A Deep Learning Approach (ICML 2011) dan dalam jaringan saraf rectifier Deep sparse (AISTATS 2011).∥W∥1L1∥g2(…)∥1