Jika saya memahami definisi akurasi dengan benar, akurasi (% dari titik data diklasifikasikan dengan benar) kurang kumulatif daripada katakanlah MSE (mean squared error). Itu sebabnya Anda melihat bahwa Anda loss
meningkat dengan cepat, sementara akurasi berfluktuasi.
Secara intuitif, ini pada dasarnya berarti, bahwa beberapa bagian dari contoh diklasifikasikan secara acak , yang menghasilkan fluktuasi, karena jumlah tebakan acak yang benar selalu berfluktuasi (bayangkan akurasi ketika koin harus selalu mengembalikan "kepala"). Pada dasarnya sensitivitas terhadap noise (ketika klasifikasi menghasilkan hasil acak) adalah definisi umum overfitting (lihat wikipedia):
Dalam statistik dan pembelajaran mesin, salah satu tugas yang paling umum adalah mencocokkan "model" dengan satu set data pelatihan, sehingga dapat membuat prediksi yang andal pada data umum yang tidak terlatih. Dalam overfitting, model statistik menggambarkan kesalahan atau kebisingan acak alih-alih hubungan yang mendasarinya
Bukti lain dari overfitting adalah bahwa kerugian Anda meningkat, Kerugian diukur lebih tepat, lebih sensitif terhadap prediksi bising jika itu tidak tergencet oleh sigmoids / ambang batas (yang tampaknya menjadi kasus Anda untuk Kerugian itu sendiri). Secara intuitif, Anda bisa membayangkan situasi ketika jaringan terlalu yakin tentang output (ketika itu salah), sehingga memberikan nilai yang jauh dari ambang batas dalam kasus kesalahan klasifikasi acak.
Mengenai kasus Anda, model Anda tidak diatur dengan benar, kemungkinan alasan:
- tidak cukup titik data, kapasitas terlalu banyak
- pemesanan
- tidak ada / salah penskalaan / normalisasi fitur
- tingkat pembelajaran: terlalu besar, sehingga SGD melompat terlalu jauh dan merindukan area dekat minimum lokal. Ini akan menjadi kasus ekstrem "under-fitting" (ketidakpekaan terhadap data itu sendiri), tetapi mungkin menghasilkan (jenis) suara "frekuensi rendah" pada output dengan mengacak data dari input - berlawanan dengan intuisi yang overfitting, itu akan menjadi seperti selalu menebak kepala ketika memprediksi koin. Seperti yang ditunjukkan oleh @JanKukacka, tiba di area "terlalu dekat dengan" minima mungkin menyebabkan overfitting, jadi jika terlalu kecil itu akan menjadi sensitif terhadap kebisingan "frekuensi tinggi" dalam data Anda. harus berada di antara keduanya.αα ααα
Solusi yang memungkinkan:
- mendapatkan lebih banyak data-poin (atau secara artifisial memperluas set yang sudah ada)
- bermain dengan hiper-parameter (peningkatan / penurunan kapasitas atau istilah regularisasi misalnya)
- regularisasi : coba putus, berhenti lebih awal, dan sebagainya