Jika statistik adalah tentang memaksimalkan kemungkinan, maka pembelajaran mesin adalah tentang meminimalkan kerugian. Karena Anda tidak tahu kerugian yang akan Anda derita pada data yang akan datang, Anda meminimalkan perkiraan, yaitu kerugian empiris.
Misalnya, jika Anda memiliki tugas prediksi dan dievaluasi oleh jumlah kesalahan klasifikasi, Anda dapat melatih parameter sehingga model yang dihasilkan menghasilkan jumlah kesalahan klasifikasi paling kecil pada data pelatihan. "Jumlah kesalahan klasifikasi" (mis., Kerugian 0-1) adalah fungsi kehilangan yang sulit untuk digunakan karena itu tidak dapat dibedakan, jadi Anda memperkirakannya dengan "pengganti" yang lancar. Misalnya, kehilangan log adalah batas atas pada kerugian 0-1, jadi Anda bisa meminimalkannya, dan ini akan menjadi sama dengan memaksimalkan kemungkinan kondisional data. Dengan model parametrik, pendekatan ini menjadi setara dengan regresi logistik.
Dalam tugas pemodelan terstruktur, dan perkiraan kehilangan-log 0-1, Anda mendapatkan sesuatu yang berbeda dari kemungkinan bersyarat maksimum, Anda malah akan memaksimalkan produk dari kemungkinan marginal (bersyarat).
Untuk mendapatkan perkiraan kerugian yang lebih baik, orang-orang memperhatikan bahwa model pelatihan untuk meminimalkan kehilangan dan menggunakan kehilangan itu sebagai perkiraan kerugian di masa depan adalah perkiraan yang terlalu optimis. Jadi untuk minimisasi (true future loss) yang lebih akurat mereka menambahkan istilah koreksi bias menjadi kerugian empiris dan meminimalkan itu, ini dikenal sebagai minimisasi risiko terstruktur.
Dalam praktiknya, mencari tahu istilah koreksi bias yang tepat mungkin terlalu sulit, jadi Anda menambahkan ekspresi "dalam semangat" istilah koreksi bias, misalnya, jumlah kuadrat parameter. Pada akhirnya, hampir semua pembelajaran mesin parametrik yang menggunakan pendekatan klasifikasi yang diawasi akhirnya melatih model untuk meminimalkan hal-hal berikut
∑iL(m(xi,w),yi)+P(w)
di mana adalah model Anda parametrized oleh vektor w , saya diambil alih semua datapoints { x i , y i } , L adalah beberapa pendekatan yang bagus secara komputasi dari kerugian Anda yang sebenarnya dan P ( w ) adalah beberapa istilah koreksi-koreksi / regularisasimwi{xi,yi}LP(w)
Misalnya jika , y ∈ { - 1 , 1 } Anda , pendekatan tipikal adalah membiarkan m ( x ) = tanda ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) , dan pilih q dengan validasi silangP(w)=q×(w⋅w)q