Saya harap kutipan berikut ini akan memberikan wawasan tentang apa yang akan menjadi pertanyaan saya. Ini dari http://neuralnetworksanddeeplearning.com/chap3.html
Pembelajaran kemudian secara bertahap melambat. Akhirnya, pada sekitar zaman 280 akurasi klasifikasi cukup banyak berhenti meningkat. Zaman kemudian hanya melihat fluktuasi stokastik kecil di dekat nilai akurasi pada zaman 280. Bandingkan ini dengan grafik sebelumnya, di mana biaya yang terkait dengan data pelatihan terus turun dengan lancar. Jika kita melihat biaya itu saja, tampaknya model kita masih "lebih baik". Tetapi hasil akurasi tes menunjukkan peningkatan itu ilusi. Sama seperti model yang tidak disukai Fermi, apa yang dipelajari jaringan kami setelah zaman 280 tidak lagi digeneralisasikan ke data uji. Dan itu bukan pembelajaran yang berguna. Kami mengatakan jaringan overfitting atau overtraining di luar zaman 280.
Kami sedang melatih jaringan saraf dan biaya (untuk data pelatihan) turun hingga zaman 400 tetapi keakuratan klasifikasi menjadi statis (kecuali beberapa fluktuasi stokastik) setelah zaman 280 sehingga kami menyimpulkan bahwa model terlalu cocok untuk data pelatihan setelah posting 280.
Kita dapat melihat bahwa biaya pada data uji meningkat sampai sekitar zaman 15, tetapi setelah itu sebenarnya mulai menjadi lebih buruk, meskipun biaya pada data pelatihan terus menjadi lebih baik. Ini adalah tanda lain bahwa model kami terlalu cocok. Namun, hal itu menimbulkan teka-teki, yaitu apakah kita harus menganggap zaman 15 atau zaman 280 sebagai titik di mana overfitting akan mendominasi pembelajaran? Dari sudut pandang praktis, yang benar-benar kita pedulikan adalah meningkatkan akurasi klasifikasi pada data uji, sedangkan biaya pada data uji tidak lebih dari proksi untuk akurasi klasifikasi. Maka, masuk akal untuk menganggap zaman 280 sebagai titik di mana overfitting mendominasi pembelajaran dalam jaringan saraf kita.
Berbeda dengan akurasi klasifikasi pada data uji dibandingkan dengan biaya pelatihan sebelumnya kami sekarang menempatkan biaya pada data uji terhadap biaya pelatihan.
Kemudian buku itu menjelaskan mengapa 280 adalah zaman yang tepat di mana overfitting telah dimulai. Itulah yang saya punya masalah. Saya tidak bisa membungkus kepala saya dengan ini.
Kami meminta model untuk meminimalkan biaya dan dengan demikian biaya adalah metrik yang digunakannya sebagai ukuran kekuatannya sendiri untuk mengklasifikasikan dengan benar. Jika kita menganggap 280 sebagai zaman yang tepat di mana overfitting telah dimulai, seandainya kita tidak dengan cara menciptakan model bias yang meskipun merupakan pengklasifikasi yang lebih baik pada data uji tertentu tetapi tetap membuat keputusan dengan kepercayaan rendah dan karenanya lebih cenderung menyimpang. dari hasil yang ditunjukkan pada data uji?