Anda tidak harus melakukannya. Fungsi kerugian memiliki minimum yang sama apakah Anda menyertakan atau menekannya. Jika Anda memasukkannya, Anda mendapatkan interpretasi yang bagus untuk meminimalkan (satu setengah) kesalahan rata - rata per titik data. Dengan kata lain, Anda meminimalkan kesalahan tingkat bukannya total kesalahan.1m
Pertimbangkan untuk membandingkan kinerja pada dua set data dengan ukuran yang berbeda. Jumlah kesalahan baku kuadrat tidak sebanding secara langsung, karena dataset yang lebih besar cenderung memiliki lebih banyak kesalahan total hanya karena ukurannya. Di sisi lain, kesalahan rata-rata per titik data adalah .
Bisakah Anda sedikit menjelaskan?
Yakin. Kumpulan data Anda adalah kumpulan titik data . Setelah Anda memiliki model , kesalahan kuadrat terkecil dari pada titik data tunggal adalahh h{ xsaya, ysaya}hh
( h ( xsaya) - ysaya)2
ini, tentu saja, berbeda untuk setiap titik data. Sekarang, jika kita simpulkan kesalahannya (dan kalikan dengan setengah untuk alasan yang Anda jelaskan), kami mendapatkan kesalahan total
12∑saya( h ( xsaya) - ysaya)2
tetapi jika kita membagi dengan jumlah puncak kita mendapatkan kesalahan rata - rata per titik data
12 m∑saya( h ( xsaya) - ysaya)2
Manfaat dari rata-rata kesalahan adalah bahwa jika kita memiliki dua dataset dan dari differeing ukuran , maka kita dapat membandingkan kesalahan rata-rata tetapi tidak total kesalahan. Karena jika kumpulan data kedua, katakanlah, sepuluh kali ukuran yang pertama, maka kita akan mengharapkan total kesalahan sekitar sepuluh kali lebih besar untuk model yang sama. Di sisi lain, kesalahan rata-rata membagi efek dari ukuran kumpulan data, dan jadi kami berharap model kinerja serupa memiliki kesalahan rata-rata yang sama pada kumpulan data yang berbeda.{ xsaya, ysaya}{ x′saya, y′saya}