Mengapa pembelajaran yang mendalam tidak bekerja dengan baik dengan sejumlah kecil data?

Saya baru belajar mendalam, jadi ini mungkin pertanyaan sepele. Tetapi saya bertanya-tanya mengapa pembelajaran yang mendalam (atau jaringan saraf) tidak bekerja dengan baik pada data berlabel kecil. Apa pun makalah penelitian yang saya baca, dataset mereka sangat besar. Secara intuitif itu tidak mengejutkan karena otak kita membutuhkan banyak waktu untuk melatih dirinya sendiri. Tetapi apakah ada bukti atau alasan matematis mengapa jaringan saraf tidak bekerja dengan baik dalam kasus seperti itu?

neural-networks deep-learning

— bluechill
sumber

Jaringan saraf yang digunakan dalam model pembelajaran mendalam tipikal memiliki jumlah node yang sangat besar dengan banyak lapisan, dan karenanya banyak parameter yang harus diperkirakan. Ini membutuhkan banyak data. Jaringan saraf kecil (dengan lebih sedikit lapisan dan lebih sedikit parameter gratis) dapat berhasil dilatih dengan set data kecil - tetapi ini biasanya tidak akan digambarkan sebagai "pembelajaran mendalam".

— dcorney
sumber

+1. Kompleksitas model harus selalu hanya tumbuh lambat dengan ukuran sampel, dan pembelajaran yang mendalam adalah model yang cukup kompleks, menyiratkan bahwa biasanya tidak akan bekerja dengan baik untuk ukuran sampel kecil. Elemen Pembelajaran Statistik ( tersedia untuk diunduh secara gratis ) membahas hal ini - sangat disarankan.

— Stephan Kolassa

Terima kasih. Apakah itu berarti bahwa jika saya masih mencoba mempelajari suatu model dengan menggunakan data kecil, saya akan mengenakan pakaian model tersebut?

— bluechill

Anda lebih cenderung untuk berpakaian berlebihan jika Anda memiliki sejumlah kecil data relatif terhadap jumlah parameter dalam model Anda - ini berlaku untuk model apa pun. Anda dapat menambahkan regulator (mis., Menghukum bobot yang besar, menambahkan noise ke input data, drop out unit tersembunyi, dll.) Ke model Anda untuk membantu menghindari hal ini, tapi itu semacam seni daripada ilmu pada saat ini.

— lmjohns3