Waspadalah terhadap overfitting . Model yang lebih akurat dari data yang dikumpulkan dari suatu sistem mungkin bukan prediktor yang lebih baik dari perilaku sistem di masa depan.
Gambar di atas menunjukkan dua model dari beberapa data.
Garis linier agak akurat pada data pelatihan (titik-titik pada grafik), dan (orang akan berharap) itu akan agak akurat pada data pengujian (di mana titik cenderung untuk x <5 dan x> -5 ).
Sebaliknya, polinomial 100% akurat untuk data pelatihan, tetapi (kecuali jika Anda memiliki alasan untuk meyakini bahwa polinomial tingkat 9 masuk akal karena beberapa alasan fisik), Anda akan menganggap ini akan menjadi prediktor yang sangat buruk untuk x> 5 dan x <-5.
Model linear 'kurang akurat', berdasarkan perbandingan kesalahan dengan data yang kami kumpulkan. Tetapi lebih umum.
Selain itu, Insinyur harus lebih sedikit khawatir tentang model mereka, dan lebih banyak tentang apa yang akan dilakukan orang dengan model tersebut.
Jika saya katakan bahwa kita akan berjalan-jalan di hari yang panas dan itu diperkirakan akan berlangsung 426 menit. Anda cenderung membawa lebih sedikit air daripada jika saya katakan kepada Anda bahwa jalan kaki akan berlangsung 7 jam, dan bahkan lebih sedikit dari jika saya katakan jalan kaki akan berlangsung 4-8 jam. Ini karena Anda merespons tingkat kepercayaan tersirat saya pada perkiraan saya, daripada titik tengah waktu yang saya nyatakan.
Jika Anda memberi orang model yang akurat, orang akan mengurangi margin kesalahan mereka. Ini mengarah pada risiko yang lebih besar.
Mengambil jalan pada contoh hari yang panas, jika saya tahu jalan akan memakan waktu 4-8 jam dalam 95% kasus, dengan beberapa ketidakpastian seputar navigasi dan kecepatan berjalan. Mengetahui dengan sempurna kecepatan berjalan kita akan mengurangi ketidakpastian pada angka 4-8, tetapi itu tidak akan secara signifikan mempengaruhi 'kesempatan kita terlalu lama sehingga air menjadi masalah', karena itu didorong hampir seluruhnya oleh navigasi yang tidak pasti, bukan kecepatan berjalan yang tidak pasti.