Jadi saya mencoba melakukan pretraining pada gambar manusia menggunakan jaring konvolusional. Saya membaca makalah ( Paper1 dan Paper2 ) dan tautan stackoverflow ini , tapi saya tidak yakin saya mengerti struktur jaring (tidak didefinisikan dengan baik di koran).
Pertanyaan:
Saya dapat meminta input saya diikuti oleh layer noise diikuti oleh layer conv, diikuti oleh layer pooling - setelah itu - apakah saya menghapus pool sebelum saya memberikan output (yang sama dengan gambar input saya)?
Katakanlah saya memiliki beberapa (135.240) gambar. Jika saya menggunakan 32, (12,21) kernel, diikuti oleh (2,2) pooling, saya akan berakhir dengan 32 (62, 110) fitur peta. Sekarang apakah saya membatalkan pengumpulan untuk mendapatkan 32 (124, 220) peta fitur dan kemudian meratakannya? sebelum memberikan lapisan output (135.240) saya?
Jika saya memiliki beberapa lapisan conv-pool seperti itu, haruskah saya melatih mereka satu per satu - seperti dalam autoencoder denoised bertumpuk? Atau - dapatkah saya memiliki sesuatu seperti input-conv-pool-conv-pool-conv-pool-output (output sama dengan input)? Dalam hal itu, bagaimana cara pooling, depooling seharusnya dikelola? Haruskah saya menghapus pool pada layer pool terakhir sebelum output? Dan lagi - apa yang harus menjadi faktor ukuran dari de-pooling itu? Apakah niat untuk membawa fitur peta kembali ke bentuk input?
Haruskah saya memperkenalkan lapisan kebisingan setelah setiap lapisan conv-pool-depool?
Dan kemudian ketika fine tuning - apakah saya seharusnya menghapus layer de-pooling dan membiarkan sisanya sama. Atau haruskah saya menghapus lapisan kebisingan dan lapisan de-pooling
Adakah yang bisa mengarahkan saya ke url / kertas yang telah merinci arsitektur seperti auto encoder convolutional yang ditumpuk untuk melakukan pelatihan pra pada gambar?