Bias beroperasi per neuron virtual, sehingga tidak ada nilai dalam memiliki beberapa input bias di mana ada output tunggal - yang akan setara dengan hanya menambahkan bobot bias yang berbeda ke dalam bias tunggal.
Dalam peta fitur yang merupakan output dari lapisan tersembunyi pertama, warna tidak lagi disimpan terpisah *. Secara efektif setiap peta fitur adalah "saluran" di lapisan berikutnya, meskipun mereka biasanya divisualisasikan secara terpisah di mana input divisualisasikan dengan saluran yang digabungkan. Cara lain untuk berpikir tentang hal ini adalah bahwa saluran RGB terpisah pada gambar asli adalah 3 "peta fitur" dalam input.
Tidak masalah berapa banyak saluran atau fitur di lapisan sebelumnya, output untuk setiap peta fitur di lapisan berikutnya adalah nilai tunggal di peta itu. Satu nilai output sesuai dengan satu neuron virtual, yang membutuhkan satu bobot bias.
Dalam CNN, seperti yang Anda jelaskan dalam pertanyaan, bobot yang sama (termasuk bobot bias) dibagi di setiap titik di peta fitur output. Jadi setiap peta fitur memiliki bobot biasnya sendiri dan juga previous_layer_num_features x kernel_width x kernel_height
bobot koneksi.
Jadi ya, contoh Anda menghasilkan (3 x (5x5) + 1) x 32
total bobot untuk lapisan pertama adalah benar untuk CNN dengan lapisan pertama yang memproses input RGB menjadi 32 peta fitur terpisah.
* Anda mungkin menjadi bingung dengan melihat visualisasi bobot CNN yang dapat dipisahkan ke dalam saluran warna tempat mereka beroperasi.