Dalam kebanyakan situasi, lebih banyak data biasanya lebih baik . Overfitting pada dasarnya mempelajari korelasi palsu yang terjadi dalam data pelatihan Anda, tetapi tidak di dunia nyata. Misalnya, jika Anda hanya menganggap rekan saya, Anda mungkin belajar mengaitkan "bernama Matt" dengan "berjanggut." Ini 100% valid ( n = 4 , bahkan!), Tapi itu jelas tidak benar secara umum. Meningkatkan ukuran kumpulan data Anda (misalnya, ke seluruh gedung atau kota) harus mengurangi korelasi palsu ini dan meningkatkan kinerja pelajar Anda.
Yang mengatakan, satu situasi di mana lebih banyak data tidak membantu --- dan bahkan mungkin merugikan --- adalah jika data pelatihan tambahan Anda berisik atau tidak cocok dengan apa pun yang Anda coba prediksi. Saya pernah melakukan percobaan di mana saya memasukkan model bahasa yang berbeda [*] ke sistem reservasi restoran yang diaktifkan suara. Saya memvariasikan jumlah data pelatihan serta relevansinya: pada satu ekstrem, saya memiliki koleksi kecil orang yang hati-hati memilih tabel pemesanan, pasangan yang cocok untuk aplikasi saya. Di sisi lain, saya memiliki model yang diperkirakan dari koleksi besar literatur klasik, model bahasa yang lebih akurat, tetapi kecocokan yang jauh lebih buruk dengan aplikasinya. Yang mengejutkan saya, model kecil tapi relevan jauh mengungguli model besar tapi kurang relevan.
Situasi mengejutkan, yang disebut
double-descent , juga terjadi ketika ukuran set pelatihan dekat dengan jumlah parameter model. Dalam kasus-kasus ini, risiko tes pertama berkurang ketika ukuran set pelatihan meningkat, sementara
meningkat ketika sedikit lebih banyak data pelatihan ditambahkan, dan akhirnya mulai menurun lagi ketika set pelatihan terus tumbuh. Fenomena ini dilaporkan 25 tahun dalam literatur jaringan saraf (lihat Opper, 1995), tetapi terjadi dalam jaringan modern juga (
Advani dan Saxe, 2017 ). Menariknya, ini terjadi bahkan untuk regresi linier, meskipun sesuai dengan SGD (
Nakkiran, 2019). Fenomena ini belum sepenuhnya dipahami dan sebagian besar menarik secara teoritis: Saya tentu tidak akan menggunakannya sebagai alasan untuk tidak mengumpulkan lebih banyak data (meskipun saya mungkin mengutak-atik ukuran set pelatihan jika n == p dan kinerjanya tiba-tiba buruk ).
[*] Model bahasa hanyalah probabilitas untuk melihat urutan kata-kata tertentu misalnya
P( bn= 'cepat', wn + 1= 'cokelat', wn + 2= 'rubah' ) . Mereka sangat penting untuk membangun pengenalan karakter / karakter setengah jalan yang layak.