Apa dampak peningkatan data pelatihan terhadap akurasi sistem secara keseluruhan?


16

Dapatkah seseorang meringkas untuk saya dengan contoh yang mungkin, pada situasi apa meningkatkan data pelatihan meningkatkan sistem secara keseluruhan? Kapan kami mendeteksi bahwa menambahkan lebih banyak data pelatihan dapat membuat data terlalu berlebihan dan tidak memberikan akurasi yang baik pada data uji?

Ini adalah pertanyaan yang sangat tidak spesifik, tetapi jika Anda ingin menjawabnya khusus untuk situasi tertentu, silakan lakukan.


hanya ingin tahu - apakah ini tentang apakah 50-50 split ke kereta / tes lebih baik daripada mengatakan 75-25?
probabilityislogic

Jawaban:


21

Dalam kebanyakan situasi, lebih banyak data biasanya lebih baik . Overfitting pada dasarnya mempelajari korelasi palsu yang terjadi dalam data pelatihan Anda, tetapi tidak di dunia nyata. Misalnya, jika Anda hanya menganggap rekan saya, Anda mungkin belajar mengaitkan "bernama Matt" dengan "berjanggut." Ini 100% valid ( n=4 , bahkan!), Tapi itu jelas tidak benar secara umum. Meningkatkan ukuran kumpulan data Anda (misalnya, ke seluruh gedung atau kota) harus mengurangi korelasi palsu ini dan meningkatkan kinerja pelajar Anda.

Yang mengatakan, satu situasi di mana lebih banyak data tidak membantu --- dan bahkan mungkin merugikan --- adalah jika data pelatihan tambahan Anda berisik atau tidak cocok dengan apa pun yang Anda coba prediksi. Saya pernah melakukan percobaan di mana saya memasukkan model bahasa yang berbeda [*] ke sistem reservasi restoran yang diaktifkan suara. Saya memvariasikan jumlah data pelatihan serta relevansinya: pada satu ekstrem, saya memiliki koleksi kecil orang yang hati-hati memilih tabel pemesanan, pasangan yang cocok untuk aplikasi saya. Di sisi lain, saya memiliki model yang diperkirakan dari koleksi besar literatur klasik, model bahasa yang lebih akurat, tetapi kecocokan yang jauh lebih buruk dengan aplikasinya. Yang mengejutkan saya, model kecil tapi relevan jauh mengungguli model besar tapi kurang relevan.


Situasi mengejutkan, yang disebut double-descent , juga terjadi ketika ukuran set pelatihan dekat dengan jumlah parameter model. Dalam kasus-kasus ini, risiko tes pertama berkurang ketika ukuran set pelatihan meningkat, sementara meningkat ketika sedikit lebih banyak data pelatihan ditambahkan, dan akhirnya mulai menurun lagi ketika set pelatihan terus tumbuh. Fenomena ini dilaporkan 25 tahun dalam literatur jaringan saraf (lihat Opper, 1995), tetapi terjadi dalam jaringan modern juga ( Advani dan Saxe, 2017 ). Menariknya, ini terjadi bahkan untuk regresi linier, meskipun sesuai dengan SGD ( Nakkiran, 2019). Fenomena ini belum sepenuhnya dipahami dan sebagian besar menarik secara teoritis: Saya tentu tidak akan menggunakannya sebagai alasan untuk tidak mengumpulkan lebih banyak data (meskipun saya mungkin mengutak-atik ukuran set pelatihan jika n == p dan kinerjanya tiba-tiba buruk ).


[*] Model bahasa hanyalah probabilitas untuk melihat urutan kata-kata tertentu misalnya P(wn='cepat', wn+1='cokelat', wn+2='rubah') . Mereka sangat penting untuk membangun pengenalan karakter / karakter setengah jalan yang layak.



12

Satu catatan: dengan menambahkan lebih banyak data (baris atau contoh, bukan kolom atau fitur) peluang Anda overfitting berkurang daripada meningkat.

Ringkasan dua paragraf seperti ini:

  • Menambahkan lebih banyak contoh, menambah keragaman. Ini mengurangi kesalahan generalisasi karena model Anda menjadi lebih umum karena dilatih pada lebih banyak contoh.
  • Menambahkan lebih banyak fitur input, atau kolom (ke sejumlah contoh tetap) dapat meningkatkan overfitting karena lebih banyak fitur mungkin tidak relevan atau berlebihan dan ada lebih banyak kesempatan untuk menyulitkan model agar sesuai dengan contoh yang ada.

Ada beberapa kriteria sederhana untuk membandingkan kualitas model. Lihatlah misalnya di AIC atau di BIC .

Keduanya menunjukkan bahwa menambahkan lebih banyak data selalu membuat model lebih baik, sementara menambahkan kompleksitas parameter di luar yang optimal, mengurangi kualitas model.


1

Meningkatkan data pelatihan selalu menambah informasi dan harus meningkatkan kecocokan. Kesulitan datang jika Anda kemudian mengevaluasi kinerja classifier hanya pada data pelatihan yang digunakan untuk fit. Ini menghasilkan penilaian bias secara optimis dan merupakan alasan mengapa validasi silang kiri-keluar atau bootstrap digunakan sebagai gantinya.


1

Idealnya, setelah Anda memiliki lebih banyak contoh pelatihan Anda akan memiliki tes-kesalahan yang lebih rendah (varians dari penurunan model, yang berarti kita kurang overfitting), tetapi secara teoritis, lebih banyak data tidak selalu berarti Anda akan memiliki model yang lebih akurat karena model bias tinggi tidak akan mendapat manfaat dari lebih banyak contoh pelatihan .

Lihat di sini: Di Pembelajaran Mesin, Apa yang Lebih Baik: Lebih Banyak Data atau Algoritma yang lebih baik

Varians tinggi - model yang mewakili pelatihan yang ditetapkan dengan baik, tetapi berisiko overfitting untuk data pelatihan yang berisik atau tidak representatif.

Bias tinggi - model yang lebih sederhana yang tidak cenderung pakaian berlebihan, tetapi mungkin kurang sesuai dengan data pelatihan, gagal menangkap keteraturan penting.


-1

Analisis spektrum akan membantu dalam analisis keragaman sampel, pada kenyataannya, informasi palsu akan dipelajari dalam pemodelan jika tidak "sampel nyata" ditambahkan, yang biasanya disebut pemasangan berlebihan. Biasanya, jika informasi yang diberikan oleh sampel kurang, sampel yang lebih nyata didorong untuk diberikan untuk memastikan informasi yang berguna dapat digunakan dalam pengujian. Semoga berhasil!


3
Sulit untuk memahami jawaban ini. Apakah mungkin terjemahan mesin dari bahasa lain? Akankah ada beberapa cara Anda dapat memeriksanya dan mengeditnya sehingga menyampaikan gagasan yang ingin Anda bagikan dengan kami?
whuber

Saya tidak mengerti apa tanggapan Anda.
user162580

3
Sepertinya kami memiliki masalah bahasa: kata-kata yang Anda posting tidak masuk akal dalam bahasa Inggris. Bisakah Anda mengubahnya agar masuk akal?
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.