Inilah kesepakatannya:
Secara teknis Anda memang menulis kalimat yang benar (kedua model dapat memperkirakan fungsi 'tidak terlalu gila' dengan parameter yang cukup), tetapi kalimat-kalimat itu tidak membuat Anda ke mana pun!
Mengapa demikian? Nah, lihat lebih dekat pada teori aproksimasi universal, atau bukti formal lainnya bahwa jaringan saraf dapat menghitung f (x) jika ada neuron CUKUP.
Semua jenis bukti yang saya lihat hanya menggunakan satu lapisan tersembunyi.
Lihatlah di sini http://neuralnetworksanddeeplearning.com/chap5.html untuk intuisi. Ada karya yang menunjukkan bahwa jumlah neuron yang dibutuhkan tumbuh secara eksponensial jika Anda hanya menggunakan satu lapisan.
Jadi, sementara dalam teori Anda benar, dalam praktiknya, Anda tidak memiliki jumlah memori yang tak terbatas, jadi Anda tidak benar-benar ingin melatih jaring 2 ^ 1000 neuron, bukan? Bahkan jika Anda memang memiliki jumlah memori yang tak terbatas, jaring itu pasti akan sesuai.
Menurut saya, poin terpenting dari ML adalah poin praktis! Mari kita bahas sedikit tentang itu. Masalah besar sebenarnya di sini bukan hanya bagaimana polinomial naik / turun dengan sangat cepat di luar rangkaian pelatihan. Tidak semuanya. Sebagai contoh cepat, piksel gambar apa pun berada dalam kisaran yang sangat spesifik ([0,255] untuk setiap warna RGB) sehingga Anda dapat yakin bahwa sampel baru akan berada dalam kisaran nilai rangkaian pelatihan Anda. Tidak. Masalah besarnya adalah: Perbandingan ini tidak berguna untuk memulai dengan (!).
Saya menyarankan Anda untuk sedikit bereksperimen dengan MNIST, dan mencoba dan melihat hasil aktual yang dapat Anda buat dengan menggunakan hanya satu lapisan.
Jaring praktis menggunakan cara lebih dari satu lapisan tersembunyi, kadang-kadang lusinan (well, Resnet bahkan lebih ...) dari lapisan. Untuk sebuah alasan. Alasan itu tidak terbukti, dan secara umum, memilih arsitektur untuk jaringan syaraf adalah bidang penelitian yang panas. Dengan kata lain, sementara kita masih perlu tahu lebih banyak, kedua model yang telah Anda bandingkan (regresi linier dan NN hanya dengan satu lapisan tersembunyi), untuk banyak set data, tidak berguna sama sekali!
Omong-omong, jika Anda akan masuk ke ML, ada teorema lain yang tidak berguna yang sebenarnya merupakan 'area penelitian' saat ini - PAC (mungkin kira-kira benar) / dimensi VC. Saya akan mengembangkannya sebagai bonus:
Jika perkiraan universal pada dasarnya menyatakan bahwa dengan memberikan jumlah neuron yang tak terbatas, kita dapat memperkirakan fungsi apa pun (terima kasih banyak?), Yang dikatakan PAC dalam istilah praktis adalah, mengingat (secara praktis!) Jumlah tak terbatas contoh berlabel yang bisa kita dapatkan sedekat yang kita bisa ingin hipotesis terbaik dalam model kami. Itu benar-benar lucu ketika saya menghitung jumlah aktual contoh yang diperlukan untuk jaring praktis berada dalam beberapa tingkat kesalahan praktis yang diinginkan dengan beberapa probabilitas okish :) Itu lebih dari jumlah elektron di alam semesta. PS untuk meningkatkannya juga mengasumsikan bahwa sampel adalah IID (itu tidak pernah benar!).