OP secara keliru percaya bahwa hubungan antara kedua fungsi ini disebabkan oleh jumlah sampel (yaitu tunggal vs semua). Namun, perbedaan sebenarnya adalah bagaimana kami memilih label pelatihan kami.
Dalam kasus klasifikasi biner, kita dapat menetapkan label y= ± 1 atau y= 0 , 1 .
Seperti yang telah dinyatakan, fungsi logistik σ( z) adalah pilihan yang baik karena memiliki bentuk probabilitas, yaitu σ( - z)=1−σ(z) dan σ(z)∈(0,1) sebagai z→±∞ . Jika kami memilih label y=0,1 kami dapat menetapkan
P ( y= 1 | z)P ( y= 0 | z)= σ( z) = 11 + e- z= 1 - σ( z) = 11 + ez
yang dapat ditulis lebih kompak sebagai P ( y| z) = σ( z)y( 1 - σ( z) )1 - y .
Lebih mudah untuk memaksimalkan kemungkinan log. Memaksimalkan kemungkinan log sama dengan meminimalkan kemungkinan log negatif. Untuk sampel m{ xsaya, ysaya} , setelah mengambil logaritma natural dan beberapa penyederhanaan, kita akan menemukan:
l ( z) = - log( ∏sayamP ( ysaya| zsaya) ) = - Âsayamlog( P(ysaya| zsaya)) = Âsayam- ysayazsaya+ log( 1 + ezsaya)
Derivasi penuh dan informasi tambahan dapat ditemukan di notebook jupyter ini . Di sisi lain, kita mungkin menggunakan label y= ± 1 . Cukup jelas bahwa kita dapat menetapkan
P ( y| z) = σ( yz) .
Juga jelas bahwa P ( y= 0 | z) = P ( y= - 1 | z) = σ( - z) . Mengikuti langkah yang sama seperti sebelumnya kami meminimalkan dalam hal ini fungsi kerugian
L ( z) = - log( ∏jmP ( yj| zj) ) = - Âjmlog( P(yj| zj) ) = Âjmlog( 1 + e- yzj)
Dimana langkah terakhir mengikuti setelah kita mengambil timbal balik yang diinduksi oleh tanda negatif. Meskipun kita tidak harus menyamakan dua bentuk ini, mengingat bahwa dalam setiap bentuk y mengambil nilai yang berbeda, namun keduanya setara:
- ysayazsaya+ log( 1 + ezsaya) ≡ log( 1 + e- yzj)
Kasus ysaya= 1 sepele untuk ditampilkan. Jika ysaya≠ 1 , maka ysaya= 0 di sisi kiri dan ysaya= - 1 di sisi kanan.
Walaupun mungkin ada alasan mendasar mengapa kita memiliki dua bentuk yang berbeda (lihat Mengapa ada dua formulasi / notasi kerugian logistik yang berbeda? ), Satu alasan untuk memilih yang pertama adalah karena pertimbangan praktis. Dalam yang pertama kita dapat menggunakan properti ∂σ( z) / ∂z= σ( z) ( 1 - σ( z) ) untuk menghitung secara sepele ∇ l ( z) dan ∇2l ( z), keduanya diperlukan untuk analisis konvergensi (yaitu untuk menentukan kecembungan fungsi kerugian dengan menghitung Hessian ).