Saat membaca makalah segmentasi semantik serta implementasi yang sesuai, saya menemukan bahwa beberapa pendekatan menggunakan softmax sementara yang lain menggunakan sigmoid untuk pelabelan tingkat piksel.
Misalnya, sehubungan dengan kertas u-net , output adalah peta fitur dengan dua saluran.
Saya telah melihat beberapa implementasi menggunakan softmax pada dua keluaran saluran ini. Saya tidak yakin apakah pemahaman saya berikut ini benar atau tidak?
Untuk tujuan ilustrasi, bagian bertopeng milik kelas 1 dan bagian lainnya milik kelas 2. Saya hanya menganggap dua kelas: bertopeng atau tidak bertopeng.
Saya gunakan xy
untuk mewakili peta output dengan bentuk (1, image_row, image_col, 2). Kemudian, xy[1,0,0,0]
akan mewakili probabilitas piksel pada (0,0) milik kelas 1 sedangkan xy[1,0,0,1]
akan mewakili probabilitas piksel (0,0) milik kelas 2. Dengan kata lain,xy[1,row,col,0]+xy[1,row,col,1]=1
Apakah pemahaman saya benar?