Inilah cara saya akan menyatakan kehilangan lintas-entropi :
L(X,Y)=−1n∑i=1ny(i)lna(x(i))+(1−y(i))ln(1−a(x(i)))
Di sini, adalah sekumpulan contoh input dalam dataset pelatihan, dan adalah set label yang sesuai untuk contoh input tersebut. The merupakan output dari jaringan saraf yang diberikan masukan .X={x(1),…,x(n)}Y={y(1),…,y(n)}a(x)x
Setiap adalah 0 atau 1, dan aktivasi output biasanya dibatasi pada interval terbuka (0, 1) dengan menggunakan sigmoid logistik . Misalnya, untuk jaringan satu lapis (yang setara dengan regresi logistik), aktivasi akan diberikan oleh mana adalah matriks bobot dan adalah vektor bias. Untuk beberapa lapisan, Anda dapat memperluas fungsi aktivasi ke sesuatu seperti mana dan adalah matriks bobot dan bias untuk lapisan pertama, dany(i)a(x)
a(x)=11+e−Wx−b
Wba(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) adalah aktivasi lapisan tersembunyi di jaringan.
Saya telah menggunakan (i) superskrip untuk menunjukkan contoh karena saya menemukan itu cukup efektif dalam kursus pembelajaran mesin Andrew Ng; kadang-kadang orang mengekspresikan contoh sebagai kolom atau baris dalam matriks, tetapi idenya tetap sama.