Apa itu Bayesian Deep Learning?

13

Apa itu Bayesian Deep Learning dan bagaimana hubungannya dengan statistik Bayesian tradisional dan Deep Learning tradisional?

Apa konsep dan matematika utama yang terlibat? Bisakah saya mengatakan itu hanya statistik bayesian non parametrik? Apa karya seminalnya serta perkembangan dan aplikasi utamanya saat ini?

PS: Bayesian Deep Learning mendapat banyak perhatian, lihat workshop NIPS.

bayesian deep-learning

— statlearner
sumber

10

Berangkat dari tautan lokakarya NIPS Anda, Yee Whye Teh melakukan pidato utama di NIPS di Bayesian Deep Learning (video: https://www.youtube.com/watch?v=LVBvJsTr3rg , slide: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Saya pikir pada suatu titik dalam pembicaraan, Teh merangkum pembelajaran Bayesian yang mendalam sebagai penerapan kerangka Bayesian untuk ide-ide dari pembelajaran yang mendalam (seperti belajar posterior di atas bobot jaringan saraf), dan pembelajaran Bayesian yang dalam sebagai penerapan ide dari pembelajaran dalam ke Kerangka Bayesian (seperti proses Gaussian mendalam atau keluarga eksponensial mendalam). Tentu saja ada ide-ide yang melintasi garis antara dua konsep, seperti autoencoder variasional. Ketika kebanyakan orang mengatakan Bayesian belajar mendalam, mereka biasanya berarti salah satu dari keduanya, dan itu tercermin dalam makalah yang diterima di bengkel yang Anda tautkan (bersama dengan bengkel pada tahun sebelumnya). Sementara ide-ide itu kembali ke karya Neal pada pembelajaran Bayesian tentang jaringan saraf pada tahun 90-an (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), dan sudah ada pekerjaan selama bertahun-tahun sejak itu, mungkin salah satu makalah terbaru yang lebih penting adalah kertas autoencoder variasi asli ( https://arxiv.org/pdf/1312.6114.pdf ).

— aleshing
sumber

10

Saya menyarankan agar Anda pertama kali memahami dengan baik apa yang menjadi model probabilistik yang mendasari Jaringan Bayural tradisional Neural. Berikut ini, beberapa istilah akan ditulis dengan huruf tebal . Silakan coba googling istilah-istilah itu untuk menemukan informasi yang lebih terperinci. Ini hanya gambaran umum dasar. Saya harap ini membantu.

Mari kita pertimbangkan kasus regresi dalam jaringan saraf feedforward dan buat beberapa notasi.

Biarkan menunjukkan nilai prediktor pada lapisan input . Nilai unit di lapisan dalam akan dilambangkan dengan , untuk $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ . Akhirnya, kita memilikilapisan output . $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

The bobot dan bias yang unit pada lapisan akan dilambangkan dengan dan , masing-masing, untuk , , dan . $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

Misalkan menjadi fungsi aktivasi untuk unit pada layer , untuk dan . $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

Fungsi aktivasi yang umum digunakan adalah logistik , ReLU (alias bagian positif ), dan tanh .

$\ell=1,\dots,L$

G^{(ℓ)} : R^{N_{ℓ - 1}} \to R^{N_{ℓ}} : (z_{1}^{(ℓ - 1)}, \dots, z_{N_{ℓ - 1}}^{(ℓ - 1)}) \mapsto (z_{1}^{(ℓ)}, \dots, z_{N_{ℓ}}^{(ℓ)}),

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

z_{i}^{(ℓ)} = g_{i}^{(ℓ)} (\sum_{j = 1}^{N_{ℓ - 1}} w_{i j}^{(ℓ)} z_{j}^{(ℓ - 1)} + b_{i}^{(ℓ)}),

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

$\theta$

θ = {w_{i j}^{(ℓ)}, b_{i}^{(ℓ)} : ℓ = 1, \dots, L; i = 1 \dots, N_{ℓ}; j = 1, \dots, N_{ℓ - 1}},

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

G_{θ} = G^{(L)} \circ G^{(L - 1)} \circ \dots \circ G^{(1)} .

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

Tidak ada probabilitas yang terlibat dalam uraian di atas. Tujuan dari bisnis jaringan saraf asli adalah fungsi pas .

" Jauh " dalam Pembelajaran Mendalam berarti keberadaan banyak lapisan dalam di jaringan saraf yang sedang dipertimbangkan.

$\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

\sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2},

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ seperti penalti untuk fungsi tujuan, atau menggunakan putus sekolah selama pelatihan. Geoffrey Hinton (alias Deep Learning Godfather) dan kolaborator menemukan banyak hal ini. Kisah sukses Deep Learning ada di mana-mana.

L_{x, y} (θ, σ^{2}) \propto σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2}),

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π (θ, σ^{2}) \propto \exp (- \frac{1}{2 σ_{0}^{2}} \sum_{ℓ = 1}^{L} \sum_{i = 1}^{N_{ℓ}} ({(b_{i}^{(ℓ)})}^{2} + \sum_{j = 1}^{N_{ℓ - 1}} {(w_{i j}^{(ℓ)})}^{2})) \times π (σ^{2}) .

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

Therefore, the marginal priors for the weights and biases are normal distributions with zero mean and common variance $\sigma_0^2$ . This original joint model can be made much more involved, with the trade-off of making inference harder.

Bayesian Deep Learning faces the difficult task of sampling from the corresponding posterior distribution. After this is accomplished, predictions are made naturally with the posterior predictive distribution, and the uncertainties involved in these predictions are fully quantified. The holy grail in Bayesian Deep Learning is the construction of an efficient and scalable solution. Many computational methods have been used in this quest: Metropolis-Hastings and Gibbs sampling, Hamiltonian Monte Carlo, and, more recently, Variational Inference.

Check out the NIPS conference videos for some success stories: http://bayesiandeeplearning.org/

— Zen
sumber