Pertanyaan bagus: perhatikan bahwa dalam bidang Pembelajaran Mendalam hal-hal tidak selalu begitu baik dan didefinisikan dengan jelas seperti dalam Pembelajaran Statistik (juga karena ada banyak hype), jadi jangan berharap untuk menemukan definisi seketat dalam Matematika. Bagaimanapun, multilayer perceptron adalah arsitektur jaringan saraf umpan-maju khusus, di mana Anda menumpuk beberapa lapisan yang sepenuhnya terhubung (jadi, tidak ada lapisan konvolusi sama sekali), di mana fungsi aktivasi unit tersembunyi sering berupa sigmoid atau tanh. Node pada layer output biasanya memiliki fungsi aktivasi softmax (untuk klasifikasi) atau fungsi aktivasi linier (untuk regresi). Arsitektur MLP yang khas tidak "dalam", yaitu, kami tidak memiliki banyak lapisan tersembunyi. Anda biasanya memiliki, misalnya, 1 hingga 5 lapisan tersembunyi. Jaringan saraf ini umum di tahun '80,
Sekarang, dengan Deep Neural Network yang kami maksudkan adalah jaringan yang memiliki banyak lapisan (19, 22, 152, ... bahkan > 1200 , meskipun itu diakui sangat ekstrem). Catat itu
- kami belum menentukan arsitektur jaringan, jadi ini bisa menjadi umpan maju, berulang, dll.
- kami belum menentukan sifat koneksi, sehingga kami bisa memiliki lapisan yang sepenuhnya terhubung, lapisan konvolusional, perulangan, dll.
- "banyak" lapisan diakui bukan definisi yang ketat.
⇒ 32 × 32 + 32 × 10 = 1344⇒ 11584beban. Ini adalah NN yang sangat kecil menurut standar saat ini. Namun, ketika Anda melanjutkan untuk melatihnya pada kumpulan data besar yang sesuai, Anda menemukan bahwa tingkat konvergensi telah melambat sangat. Ini bukan hanya karena jumlah bobot yang lebih besar, tetapi karena masalah gradien menghilang - propagasi balik menghitung gradien fungsi kerugian dengan mengalikan kesalahan di setiap lapisan, dan angka-angka kecil ini menjadi lebih kecil secara eksponensial, semakin banyak lapisan yang Anda tambahkan. Dengan demikian, kesalahan tidak menyebar (atau menyebar sangat lambat) di jaringan Anda, dan sepertinya kesalahan pada set pelatihan berhenti berkurang dengan zaman pelatihan.
Dan ini adalah jaringan kecil - Jaringan Neural Konvolusional mendalam yang disebut AlexNet memiliki 5 lapisan tetapi 60 juta bobot, dan itu dianggap kecil menurut standar saat ini! Ketika Anda memiliki begitu banyak bobot, maka kumpulan data apa pun adalah "kecil" - bahkan ImageNet, kumpulan data gambar yang digunakan untuk klasifikasi, memiliki "hanya" sekitar 1 juta gambar, sehingga risiko overfitting jauh lebih besar daripada jaringan dangkal.
Deep Learning dengan demikian dapat dipahami sebagai seperangkat alat yang digunakan dalam praktik untuk melatih jaringan saraf dengan sejumlah besar lapisan dan berat, mencapai kesalahan generalisasi yang rendah. Tugas ini menimbulkan lebih banyak tantangan daripada jaringan yang lebih kecil. Anda pasti dapat membangun Deep Multilayer Perceptron dan melatihnya - tetapi (terlepas dari kenyataan bahwa itu bukan arsitektur yang optimal untuk banyak tugas di mana Deep Learning digunakan hari ini), Anda mungkin akan menggunakan alat yang berbeda dari yang digunakan ketika jaringan dulu "dangkal". Misalnya, Anda dapat memilih unit aktivasi ReLU daripada sigmoid atau tanh, karena mereka melunakkan masalah gradien menghilang.