Bisakah seseorang tolong jelaskan algoritma back-propagation? [duplikat]

13

Apa algoritma back-propagation dan bagaimana cara kerjanya?

algorithms optimization neural-networks

— Ami
sumber

1

Saya mengumpulkan jawaban untuk pertanyaan ini di sini jika ada yang tertarik (saya tidak ingin memposting ulang).

— Phylliida

14

Algoritma back propagation adalah algoritma gradient descent untuk pemasangan model jaringan saraf. (seperti yang disebutkan oleh @Dikran) Mari saya jelaskan caranya.

Secara formal: Menggunakan perhitungan gradien pada akhir posting ini dalam persamaan [1] di bawah ini (yang merupakan definisi dari gradient descent) memberikan algoritma propagasi balik sebagai kasus khusus dari penggunaan gradient descent.

Model jaringan saraf Secara formal, kami memperbaiki ide dengan model lapisan tunggal sederhana:

f (x) = g (A^{1} (s (A^{2} (x))))

$f(x)=g(A^1(s(A^2(x))))$ mana dan dikenal dengan untuk semua , , dan , adalah fungsi affine yang tidak diketahui. Fungsi disebut fungsi aktivasi dalam kerangka klasifikasi.

g : R \to R

$g:\mathbb{R} \rightarrow \mathbb{R}$

s : R^{M} \to R^{M}

$s:\mathbb{R}^M\rightarrow \mathbb{R}^M$

m = 1 \dots, M

$m=1\dots,M$

s (x) [m] = σ (x [m])

$s(x)[m]=\sigma(x[m])$

A^{1} : R^{M} \to R

$A^1:\mathbb{R}^M\rightarrow \mathbb{R}$

A^{2} R^{p} \to R^{M}

$A^2\mathbb{R}^p\rightarrow \mathbb{R}^M$

σ : R \to R

$\sigma:\mathbb{R}\rightarrow \mathbb{R}$

Fungsi Rugi kuadratik diambil untuk memperbaiki ide. Karenanya input vektor dari dapat dipasangkan ke output nyata dari (bisa menjadi vektor) dengan meminimalkan empiris kehilangan: sehubungan dengan pilihan dan . $(x_1,\dots,x_n)$ $\mathbb{R}^p$ $(y_1,\dots,y_n)$ $\mathbb{R}$

R_{n} (A^{1}, A^{2}) = \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2} [1]

$\mathcal{R}_n(A^1,A^2)=\sum_{i=1}^n (y_i-f(x_i))^2\;\;\;\;\;\;\; [1]$

A^{1}

$A^1$

A^{2}

$A^2$

Gradient descent Keturunan grandient untuk meminimalkanadalah algoritma yang mengulang:: untuk ukuran langkah yang dipilih dengan baik(juga disebut tingkat pembelajaran dalam kerangka propagasi balik). Ini membutuhkan perhitungan gradien dari. Dalam kasus yang dipertimbangkan. $\mathcal{R}$

a_{l + 1} = a_{l} - γ_{l} \nabla R (a_{l}), l \geq 0.

$\mathbf{a}_{l+1}=\mathbf{a}_l-\gamma_l \nabla \mathcal{R}(\mathbf{a}_l),\ l \ge 0.$

(γ_{l})_{l}

$(\gamma_l)_l$

R

$\mathcal{R}$

a_{l} = (A_{l}^{1}, A_{l}^{2})

$\mathbf{a}_l=(A^1_{l},A^2_{l})$

Gradien dari $\mathcal{R}$ (untuk model jaring neural yang dianggap sederhana) Mari kita menyatakan, oleh gradien dari sebagai fungsi dari , dan gradien dari sebagai fungsi dari . Perhitungan standar (menggunakan aturan untuk derivasi komposisi fungsi) dan penggunaan notasi memberikan untuk semua $\nabla_1 \mathcal{R}$ $\mathcal{R}$ $A^1$ $\nabla_2\mathcal{R}$ $\mathcal{R}$ $A^2$ $z_i=A^1(s(A^2(x_i)))$

\nabla_{1} R [1 : M] = - 2 \times \sum_{i = 1}^{n} z_{i} g^{'} (z_{i}) (y_{i} - f (x_{i}))

$\nabla_1 \mathcal{R}[1:M] =-2\times \sum_{i=1}^n z_i g'(z_i) (y_i-f(x_i))$

m = 1, \dots, M

$m=1,\dots,M$

\nabla_{2} R [1 : p, m] = - 2 \times \sum_{i = 1}^{n} x_{i} g^{'} (z_{i}) z_{i} [m] σ^{'} (A^{2} (x_{i}) [m]) (y_{i} - f (x_{i}))

$\nabla_2 \mathcal{R}[1:p,m] =-2\times \sum_{i=1}^n x_i g'(z_i) z_i[m]\sigma'(A^2(x_i)[m]) (y_i-f(x_i))$

Di sini saya menggunakan notasi R: adalah vektor yang terdiri dari koordinat dari indeks ke indeks . $x[a:b]$ $x$ $a$ $b$

— robin girard
sumber

11

Back-propogation adalah cara mengerjakan turunan dari fungsi kesalahan sehubungan dengan bobot, sehingga model dapat dilatih dengan metode optimasi gradient descent - ini pada dasarnya hanya penerapan "aturan rantai". Tidak ada yang lebih dari itu, jadi jika Anda merasa nyaman dengan kalkulus itu pada dasarnya adalah cara terbaik untuk melihatnya.

Jika Anda tidak nyaman dengan kalkulus, cara yang lebih baik adalah dengan mengatakan bahwa kami tahu betapa buruknya unit output karena kami memiliki output yang diinginkan untuk membandingkan output aktual. Namun kami tidak memiliki output yang diinginkan untuk unit tersembunyi, jadi apa yang kita lakukan? Aturan back-propagation pada dasarnya adalah cara untuk menetapkan kesalahan atas kesalahan unit output ke unit tersembunyi. Semakin banyak pengaruh yang dimiliki unit tersembunyi pada unit output tertentu, semakin besar pula kesalahan yang didapat karena kesalahan tersebut. Kesalahan total yang terkait dengan unit tersembunyi kemudian memberikan indikasi seberapa banyak bobot lapisan input-ke-tersembunyi perlu diubah. Dua hal yang mengatur berapa banyak kesalahan yang ditimpakan kembali adalah berat yang menghubungkan bobot lapisan tersembunyi dan keluaran (jelas) dan output dari unit tersembunyi (jika berteriak daripada berbisik, kemungkinan memiliki pengaruh yang lebih besar). Sisanya hanyalah basa-basi matematis yang mengubah intuisi itu menjadi turunan dari kriteria pelatihan.

Saya juga merekomendasikan buku Uskup untuk jawaban yang tepat! ;Hai)

— Dikran Marsupial
sumber

2

Ini adalah algoritma untuk melatih jaringan saraf multilayer feedforward (multilayer perceptrons). Ada beberapa applet java yang bagus di web yang menggambarkan apa yang terjadi, seperti ini: http://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.html . Juga, buku Uskup tentang NN adalah referensi meja standar untuk segala sesuatu yang berkaitan dengan NN.

— Stephen Turner
sumber

Dalam mencoba membangun repositori permanen dari informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban, kami mencoba menghindari jawaban hanya tautan . Jika Anda dapat, dapatkah Anda memperluas ini, mungkin dengan memberikan ringkasan informasi di tautan?

— Glen_b -Reinstate Monica