Asumsikan secara umum bahwa Anda memutuskan untuk mengambil model formulir
P( y= 1 | X= x ) = h ( x ; Θ )
untuk beberapa parameter . Maka Anda cukup menuliskan kemungkinan untuk itu, yaituΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , ysaya= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , ysaya= 0P( y= 0 | x = x ; Θ )
yang sama dengan
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , ysaya= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , ysaya= 0( 1 - P( y= 1 | x = x ; Θ ) )
Sekarang Anda telah memutuskan untuk 'berasumsi' (model)
P( y= 1 | X= x ) = σ( Θ0+ Θ1x )
di mana
σ( z) = 1 / ( 1 + e- z)
jadi Anda hanya menghitung rumus untuk kemungkinan dan melakukan beberapa jenis algoritma optimasi untuk menemukan , misalnya, metode newton atau metode berbasis gradien lainnya.argmaxΘL ( Θ )
Perhatikan bahwa kadang-kadang, orang mengatakan bahwa ketika mereka melakukan regresi logistik mereka tidak memaksimalkan kemungkinan (seperti yang kita / Anda lakukan di atas) tetapi mereka meminimalkan fungsi kerugian
l ( Θ ) = - ¢i = 1Nysayacatatan( P( Ysaya= 1 | X= x ; Θ ) ) + ( 1 - ysaya) log( P( Ysaya= 0 | X= x ; Θ ) )
tetapi perhatikan bahwa .- log( L ( Θ ) ) = l ( Θ )
Ini adalah pola umum dalam Pembelajaran Mesin: Sisi praktis (meminimalkan fungsi kerugian yang mengukur seberapa 'salah' model heuristik) sebenarnya sama dengan 'sisi teoretis' (pemodelan secara eksplisit dengan simbol- , yang memaksimalkan jumlah statistik seperti kemungkinan) dan pada kenyataannya, banyak model yang tidak terlihat seperti probabilistik (misalnya SVM) dapat dipahami kembali dalam konteks probabilistik dan pada kenyataannya adalah maksimalisasi kemungkinan.P