The Vapnik-Chervonenkis (VC) -Dimensi rumus untuk jaringan saraf berkisar dari ke , dengan dalam kasus terburuk, di mana adalah jumlah tepi dan adalah jumlah node. Jumlah sampel pelatihan yang diperlukan untuk memiliki jaminan kuat akan generalisasi adalah linier dengan dimensi VC.
Ini berarti bahwa untuk jaringan dengan milyaran sisi, seperti dalam kasus model pembelajaran yang sukses, dataset pelatihan membutuhkan miliaran sampel pelatihan dalam kasus terbaik, untuk quadrillion dalam kasus terburuk. Set pelatihan terbesar saat ini memiliki sekitar seratus miliar sampel. Karena tidak ada cukup data pelatihan, model pembelajaran yang mendalam tidak mungkin digeneralisasikan. Sebaliknya, mereka overfitting data pelatihan. Ini berarti model tidak akan bekerja dengan baik pada data yang berbeda dengan data pelatihan, yang merupakan properti yang tidak diinginkan untuk pembelajaran mesin.
Mengingat ketidakmampuan belajar yang mendalam untuk digeneralisasi, menurut analisis dimensi VC, mengapa hasil belajar yang dalam begitu menggembirakan? Hanya memiliki akurasi yang tinggi pada beberapa dataset tidak berarti banyak dalam dirinya sendiri. Apakah ada sesuatu yang istimewa tentang arsitektur pembelajaran mendalam yang mengurangi dimensi VC secara signifikan?
Jika Anda merasa analisis dimensi VC tidak relevan, berikan bukti / penjelasan bahwa pembelajaran mendalam adalah generalisasi dan tidak berlebihan. Yaitu apakah memiliki daya ingat DAN presisi yang baik, atau hanya daya ingat yang baik? Pengingatan 100% mudah untuk dicapai, seperti halnya ketepatan 100%. Mendapatkan keduanya mendekati 100% sangat sulit.
Sebagai contoh sebaliknya, berikut adalah bukti bahwa pembelajaran yang mendalam itu berlebihan. Model overfit mudah untuk dibohongi karena telah memasukkan noise deterministik / stokastik. Lihat gambar berikut untuk contoh overfitting.
Juga, lihat jawaban dengan peringkat lebih rendah untuk pertanyaan ini untuk memahami masalah dengan model pakaian berlebih meskipun akurasi yang baik pada data uji.
Beberapa orang menanggapi bahwa regularisasi menyelesaikan masalah dimensi VC yang besar. Lihat pertanyaan ini untuk diskusi lebih lanjut.