Karena tidak ada jawaban terperinci dan jelas, saya akan mencoba yang terbaik.
Pertama-tama mari kita pahami dari mana motivasi untuk lapisan seperti itu berasal: misalnya autoencoder konvolusional. Anda dapat menggunakan autoencoder konvolusional untuk mengekstraksi fitur gambar saat melatih autoencoder untuk merekonstruksi gambar asli. (Ini adalah metode yang tidak diawasi.)
Autoencoder semacam itu memiliki dua bagian: Encoder yang mengekstrak fitur dari gambar dan decoder yang merekonstruksi gambar asli dari fitur-fitur ini. Arsitektur encoder dan decoder biasanya dicerminkan.
Dalam autoencoder konvolusional, encoder bekerja dengan konvolusi dan lapisan penyatuan. Saya berasumsi bahwa Anda tahu cara kerjanya. Dekoder mencoba untuk mencerminkan pembuat enkode, tetapi alih-alih "membuat segalanya lebih kecil", ia memiliki tujuan "membuat semuanya lebih besar" agar sesuai dengan ukuran asli gambar.
Kebalikan dari lapisan konvolusional adalah lapisan konvolusi yang dialihkan (juga dikenal sebagai dekonvolusi , tetapi secara matematis berbicara ini adalah sesuatu yang berbeda). Mereka bekerja dengan filter, kernel, langkah sama seperti lapisan konvolusi tetapi alih-alih memetakan dari misalnya 3x3 piksel input ke 1 output mereka memetakan dari 1 piksel input ke 3x3 piksel. Tentu saja, backpropagation juga sedikit berbeda.
Kebalikan dari lapisan penggabungan adalah lapisan upampling yang dalam bentuk paling murni hanya mengubah ukuran gambar (atau menyalin piksel sebanyak yang diperlukan). Teknik yang lebih maju adalah unpooling yang mengembalikan maxpooling dengan mengingat lokasi maxima di lapisan maxpooling dan di lapisan unpooling menyalin nilai ke lokasi ini. Mengutip dari makalah ini ( https://arxiv.org/pdf/1311.2901v3.pdf ) kertas:
Dalam convnet, operasi pengumpulan max adalah tidak dapat dibalik, namun kami dapat memperoleh perkiraan kebalikan dengan mencatat lokasi maxima dalam setiap wilayah pengumpulan dalam satu set variabel sakelar. Dalam deconvnet, operasi unpooling menggunakan sakelar-sakelar ini untuk menempatkan rekonstruksi dari lapisan di atas ke lokasi yang tepat, menjaga struktur stimulus.
Untuk masukan dan konteks yang lebih teknis, lihat penjelasan yang sangat bagus, demonstratif, dan mendalam ini: http://deeplearning.net/software/theano/tutorial/conv_arithmetic.html
Dan lihat di https://www.quora.com/What-is-the-difference-between-Deconvolution-Upsampling-Unpooling-and-Convolutional-Sparse-Coding